HDFSにファイルを保存していますpart-m-00000.gz.parquet
実行しようとしましたがhdfs dfs -text dir/part-m-00000.gz.parquet
、圧縮されているため、実行しましたgunzip part-m-00000.gz.parquet
が、拡張子が認識されないため、ファイルが解凍されません.parquet
。
このファイルのスキーマ/列名を取得するにはどうすればよいですか?
ベストアンサー1
ファイルはテキスト ファイルではないため、 hdfs dfs -text を使用してファイルを「開く」ことはできません。 Parquet ファイルは、テキスト ファイルとはまったく異なる方法でディスクに書き込まれます。
同様に、Parquet プロジェクトでは、あなたがしようとしているようなタスクを実行するための parquet-tools を提供しています。スキーマ、データ、メタデータなどを開いて確認します。
parquet-toolプロジェクトをチェックしてください寄木細工ツール
また、Parquetをサポートし、多大な貢献をしているClouderaにも、parquet-toolsの使用例を掲載した素晴らしいページがあります。このページから、あなたのユースケースの例を紹介します。
parquet-tools schema part-m-00000.parquet
Cloudera ページをご覧ください。Impala、Hive、Pig、HBase、MapReduce で Parquet ファイル形式を使用する