Apache parquetとarrowの違い質問する

Question

Parquet は、データのシリアル化のための列形式のファイル形式です。Parquet ファイルを読み取るには、その内容を何らかのメモリ内データ構造に解凍してデコードする必要があります。デコード時の CPU 使用率を犠牲にして、スペース/IO 効率を高めるように設計されています。メモリ内コンピューティング用のデータ構造は提供していません。Parquet は最初から最後までデコードする必要があるストリーミング形式ですが、最近ストレージ形式にいくつかの「インデックスページ」機能が追加されましたが、一般にランダムアクセス操作はコストがかかります。

一方、Arrowは、何よりもまず、列指向データ構造を提供するライブラリです。インメモリコンピューティングParquetファイルを読むときは、データを解凍してデコードすることができます。の中へArrow 列データ構造を使用すると、デコードされたデータに対してメモリ内で分析を実行できます。Arrow 列形式には、ランダムアクセスが O(1) であり、各値セルがメモリ内で前のセルと次のセルに隣接しているため、反復処理が効率的であるという優れた特性があります。

では、「Arrow ファイル」はどうでしょうか? Apache Arrow は、メッセージングやプロセス間通信に使用できる Arrow 列配列のコレクション (「レコードバッチ」と呼ばれる) を配置するためのバイナリ「シリアル化」プロトコルを定義します。このプロトコルは、ディスク上を含む任意の場所に配置でき、後でメモリマップしたり、メモリに読み込んで他の場所に送信したりできます。

この Arrow プロトコルは、デシリアライズを行わずに Arrow データの BLOB を「マップ」できるように設計されているため、ディスク上の Arrow プロトコルデータの分析を実行するときにメモリマッピングを使用し、実質的にコストをゼロにすることができます。このプロトコルは、Spark SQL と Python の間でデータをストリーミングして Spark SQL データのチャンクに対して pandas 関数を実行するなど、さまざまな目的で使用されます。これらは「pandas udfs」と呼ばれます。

一部のアプリケーションでは、ディスク上のデータのシリアル化に Parquet と Arrow を互換的に使用できます。次の点に注意してください。

Parquet は「アーカイブ」目的に設計されています。つまり、今日ファイルを書き込むと、「Parquet を読める」と謳っているシステムは、5 年後または 7 年後にもそのファイルを読むことができると期待しています。Arrow 形式の長期的な安定性についてはまだ断言していません (将来的にはそうするかもしれませんが)。
Parquet は、他のデータ構造にデコードする必要があるため、一般的に読み取りコストがかなり高くなります。Arrow プロトコルのデータは、単純にメモリマップできます。
Parquet ファイルは、Parquet が使用するデータエンコード方式により、Arrow プロトコルオンディスクよりもはるかに小さくなることがよくあります。ディスクストレージまたはネットワークが遅い場合は、Parquet の方が適しています。

つまり、要約すると、Parquet ファイルはディスクストレージ用に設計されており、Arrow はメモリ内用に設計されています (ただし、ディスク上に配置して後でメモリマップすることもできます)。これらは互いに互換性があり、アプリケーションで一緒に使用されるように設計されています。

メモリを大量に消費するフロントエンドアプリの場合は、Arrow JavaScript (TypeScript) ライブラリを検討することをお勧めします。

Answer 1