フェザーと寄木細工の違いは何ですか? 質問する

Question

Parquet 形式は長期保存用に設計されていますが、Arrow は短期または一時的な保存を目的としています (1.0.0 リリース以降はバイナリ形式が安定するため、Arrow は長期保存に適している可能性があります)
Parquet は、エンコードと圧縮のレイヤーが多いため、Feather よりも書き込みコストが高くなります。Feather は、変更されていない生の列状 Arrow メモリです。将来的には、Feather に単純な圧縮が追加される可能性があります。
辞書エンコーディング、RLEエンコーディング、データページ圧縮により、ParquetファイルはFeatherファイルよりもかなり小さくなることが多い。
Parquet は、Spark、Hive、Impala、さまざまな AWS サービス、将来的には BigQuery など、さまざまなシステムでサポートされている分析用の標準ストレージ形式です。したがって、分析を行う場合、複数のシステムによるクエリの参照ストレージ形式として Parquet は適切な選択肢です。

読み書きしたデータが非常に小さいため、示したベンチマークは非常にノイズが多くなります。より有益なベンチマークを得るには、少なくとも100MBまたは1GB以上のデータを圧縮してみてください。例をご覧ください。http://wesmckinney.com/blog/python-parquet-multithreading/

Answer 1

Parquet 形式は長期保存用に設計されていますが、Arrow は短期または一時的な保存を目的としています (1.0.0 リリース以降はバイナリ形式が安定するため、Arrow は長期保存に適している可能性があります)
Parquet は、エンコードと圧縮のレイヤーが多いため、Feather よりも書き込みコストが高くなります。Feather は、変更されていない生の列状 Arrow メモリです。将来的には、Feather に単純な圧縮が追加される可能性があります。
辞書エンコーディング、RLEエンコーディング、データページ圧縮により、ParquetファイルはFeatherファイルよりもかなり小さくなることが多い。
Parquet は、Spark、Hive、Impala、さまざまな AWS サービス、将来的には BigQuery など、さまざまなシステムでサポートされている分析用の標準ストレージ形式です。したがって、分析を行う場合、複数のシステムによるクエリの参照ストレージ形式として Parquet は適切な選択肢です。

読み書きしたデータが非常に小さいため、示したベンチマークは非常にノイズが多くなります。より有益なベンチマークを得るには、少なくとも100MBまたは1GB以上のデータを圧縮してみてください。例をご覧ください。http://wesmckinney.com/blog/python-parquet-multithreading/

フェザーと寄木細工の違いは何ですか? 質問する

ベストアンサー1

おすすめ記事