parquet ファイルからスキーマ / 列名を取得するにはどうすればいいですか? 質問する

parquet ファイルからスキーマ / 列名を取得するにはどうすればいいですか? 質問する

HDFSにファイルを保存していますpart-m-00000.gz.parquet

実行しようとしましたがhdfs dfs -text dir/part-m-00000.gz.parquet、圧縮されているため、実行しましたgunzip part-m-00000.gz.parquetが、拡張子が認識されないため、ファイルが解凍されません.parquet

このファイルのスキーマ/列名を取得するにはどうすればよいですか?

ベストアンサー1

ファイルはテキスト ファイルではないため、 hdfs dfs -text を使用してファイルを「開く」ことはできません。 Parquet ファイルは、テキスト ファイルとはまったく異なる方法でディスクに書き込まれます。

同様に、Parquet プロジェクトでは、あなたがしようとしているようなタスクを実行するための parquet-tools を提供しています。スキーマ、データ、メタデータなどを開いて確認します。

parquet-toolプロジェクトをチェックしてください寄木細工ツール

また、Parquetをサポートし、多大な貢献をしているClouderaにも、parquet-toolsの使用例を掲載した素晴らしいページがあります。このページから、あなたのユースケースの例を紹介します。

parquet-tools schema part-m-00000.parquet

Cloudera ページをご覧ください。Impala、Hive、Pig、HBase、MapReduce で Parquet ファイル形式を使用する

おすすめ記事