現在、CSV
スクリプトを実行するたびに、かなり大きなデータをデータフレームとしてインポートしています。スクリプトの実行を待つ時間を費やさなくても済むように、実行間でデータフレームを常に利用できるようにするための良い解決策はありますか?
ベストアンサー1
df.to_pickle(file_name) # where to save it, usually as a .pkl
その後、次のコマンドを使用して再度ロードできます。
df = pd.read_pickle(file_name)
注: 0.11.1 より前ではsave
、 と がload
これを行う唯一の方法でした (現在はそれぞれ および に置き換えられて非推奨となっていますto_pickle
) read_pickle
。
もう一つの人気の選択肢はHDF5(pytables)はとても早い大規模データセットのアクセス時間:
import pandas as pd
store = pd.HDFStore('store.h5')
store['df'] = df # save it
store['df'] # load it
より高度な戦略については、料理本。
0.13以降ではメッセージパックこれは相互運用性、JSONの高速な代替として、またはPythonオブジェクト/テキストを多用するデータがある場合に適しています(この質問)。