Python と NumPy でビッグデータを扱う場合、RAM が足りないので、部分的な結果をディスクに保存するにはどうすればよいでしょうか? 質問する

Question

を使用するとnumpy.memmap、ファイルに直接マップされた配列を作成できます。

import numpy
a = numpy.memmap('test.mymemmap', dtype='float32', mode='w+', shape=(200000,1000))
# here you will see a 762MB file created in your working directory

これを従来の配列として扱うことができます: a += 1000。

同じファイルに複数の配列を割り当てて、必要に応じて相互のソースから制御することも可能です。しかし、ここでいくつか厄介なことが起こりました。完全な配列を開くには、まず、次のコードを使用して、前の配列を「閉じる」必要がありますdel。

del a    
b = numpy.memmap('test.mymemmap', dtype='float32', mode='r+', shape=(200000,1000))

しかし、配列の一部だけを開くと、同時制御が可能になります。

b = numpy.memmap('test.mymemmap', dtype='float32', mode='r+', shape=(2,1000))
b[1,5] = 123456.
print a[1,5]
#123456.0

素晴らしい!aはと一緒に変更されましたb。変更はすでにディスクに書き込まれています。

コメントする価値のあるもう 1 つの重要な点はです。の最初の 2 行ではなく、行 150000 と 150001offsetを取得するとします。b

b = numpy.memmap('test.mymemmap', dtype='float32', mode='r+', shape=(2,1000),
                 offset=150000*1000*32/8)
b[1,2] = 999999.
print a[150001,2]
#999999.0

これで、同時操作で配列の任意の部分にアクセスして更新できます。オフセット計算に含まれるバイトサイズに注意してください。したがって、'float64' の場合、この例は 150000*1000*64/8 になります。

その他の参考資料:

Answer 1