Pandas データフレームをディスクに可逆的に保存およびロードする方法 質問する

Pandas データフレームをディスクに可逆的に保存およびロードする方法 質問する

現在、CSVスクリプトを実行するたびに、かなり大きなデータをデータフレームとしてインポートしています。スクリプトの実行を待つ時間を費やさなくても済むように、実行間でデータフレームを常に利用できるようにするための良い解決策はありますか?

ベストアンサー1

最も簡単な方法はピクルスそれを使用してto_pickle:

df.to_pickle(file_name)  # where to save it, usually as a .pkl

その後、次のコマンドを使用して再度ロードできます。

df = pd.read_pickle(file_name)

注: 0.11.1 より前ではsave、 と がloadこれを行う唯一の方法でした (現在はそれぞれ および に置き換えられて非推奨となっていますto_pickle) read_pickle


もう一つの人気の選択肢はHDF5pytables)はとても早い大規模データセットのアクセス時間:

import pandas as pd
store = pd.HDFStore('store.h5')

store['df'] = df  # save it
store['df']  # load it

より高度な戦略については、料理本


0.13以降ではメッセージパックこれは相互運用性、JSONの高速な代替として、またはPythonオブジェクト/テキストを多用するデータがある場合に適しています(この質問)。

おすすめ記事