pandasデータフレームで使用されているメモリを解放するにはどうすればよいですか?質問する

pandasデータフレームで使用されているメモリを解放するにはどうすればよいですか?質問する

次のように、非常に大きな csv ファイルがあり、それを pandas で開きました。

import pandas
df = pandas.read_csv('large_txt_file.txt')

これを実行すると、メモリ使用量が 2GB 増加します。このファイルには数百万行が含まれているため、これは予想どおりです。問題は、このメモリを解放する必要があるときに発生します。実行しました...

del df

しかし、メモリ使用量は減りませんでした。これは、パンダのデータフレームによって使用されるメモリを解放するための間違ったアプローチですか? もしそうなら、正しい方法は何ですか?

ベストアンサー1

Pythonでメモリ使用量を減らすのは難しい。Pythonは実際にはメモリをオペレーティングシステムに解放しませんオブジェクトを削除すると、そのメモリは新しいPythonオブジェクトで使用できるようになりますが、free()システムには戻されません(この質問を見る)。

数値の numpy 配列を使用する場合、それらは解放されますが、ボックス化されたオブジェクトは解放されません。

>>> import os, psutil, numpy as np # psutil may need to be installed
>>> def usage():
...     process = psutil.Process(os.getpid())
...     return process.memory_info()[0] / float(2 ** 20)
... 
>>> usage() # initial memory usage
27.5 

>>> arr = np.arange(10 ** 8) # create a large array without boxing
>>> usage()
790.46875
>>> del arr
>>> usage()
27.52734375 # numpy just free()'d the array

>>> arr = np.arange(10 ** 8, dtype='O') # create lots of objects
>>> usage()
3135.109375
>>> del arr
>>> usage()
2372.16796875  # numpy frees the array, but python keeps the heap big

データフレームの数を減らす

Python はメモリを高い水準に保ちますが、作成するデータフレームの合計数を減らすことができます。データフレームを変更するときは、inplace=Trueコピーを作成しないように を優先してください。

もう 1 つのよくある問題は、ipython で以前に作成されたデータフレームのコピーを保持することです。

In [1]: import pandas as pd

In [2]: df = pd.DataFrame({'foo': [1,2,3,4]})

In [3]: df + 1
Out[3]: 
   foo
0    2
1    3
2    4
3    5

In [4]: df + 2
Out[4]: 
   foo
0    3
1    4
2    5
3    6

In [5]: Out # Still has all our temporary DataFrame objects!
Out[5]: 
{3:    foo
 0    2
 1    3
 2    4
 3    5, 4:    foo
 0    3
 1    4
 2    5
 3    6}

これを修正するには、履歴をクリアするように入力します%reset Out。または、ipython が保持する履歴の量を調整することもできますipython --cache-size=5(デフォルトは 1000)。

データフレームサイズの削減

可能な限り、オブジェクト dtype の使用は避けてください。

>>> df.dtypes
foo    float64 # 8 bytes per value
bar      int64 # 8 bytes per value
baz     object # at least 48 bytes per value, often more

オブジェクト dtype の値はボックス化されます。つまり、numpy 配列にはポインターのみが含まれ、データフレーム内のすべての値に対してヒープ上に完全な Python オブジェクトが存在します。これには文字列も含まれます。

numpyは配列内の固定サイズの文字列をサポートしていますが、pandasはサポートしていません(ユーザーの混乱を引き起こした)。これにより大きな違いが生じる可能性があります。

>>> import numpy as np
>>> arr = np.array(['foo', 'bar', 'baz'])
>>> arr.dtype
dtype('S3')
>>> arr.nbytes
9

>>> import sys; import pandas as pd
>>> s = pd.Series(['foo', 'bar', 'baz'])
dtype('O')
>>> sum(sys.getsizeof(x) for x in s)
120

文字列の列の使用を避けるか、文字列データを数値として表す方法を見つける必要があるかもしれません。

多くの重複値(NaNが非常に一般的)を含むデータフレームがある場合は、スパースデータ構造メモリ使用量を削減するには:

>>> df1.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 39681584 entries, 0 to 39681583
Data columns (total 1 columns):
foo    float64
dtypes: float64(1)
memory usage: 605.5 MB

>>> df1.shape
(39681584, 1)

>>> df1.foo.isnull().sum() * 100. / len(df1)
20.628483479893344 # so 20% of values are NaN

>>> df1.to_sparse().info()
<class 'pandas.sparse.frame.SparseDataFrame'>
Int64Index: 39681584 entries, 0 to 39681583
Data columns (total 1 columns):
foo    float64
dtypes: float64(1)
memory usage: 543.0 MB

メモリ使用量の表示

メモリ使用量を表示できます(ドキュメント):

>>> df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 39681584 entries, 0 to 39681583
Data columns (total 14 columns):
...
dtypes: datetime64[ns](1), float64(8), int64(1), object(4)
memory usage: 4.4+ GB

pandas 0.17.1 以降では、オブジェクトを含むメモリ使用量を確認することもできますdf.info(memory_usage='deep')

おすすめ記事