コマンドラインからParquetを検査する 質問する

コマンドラインからParquetを検査する 質問する

コマンドラインから Parquet ファイルの内容を検査するにはどうすればよいですか?

今私が見ている唯一の選択肢は

$ hadoop fs -get my-path local-file
$ parquet-tools head local-file | less

私はしたいと思います

  1. 作成をlocal-file避ける
  2. json印刷されるタイプなしのテキストではなく、ファイルの内容を表示しますparquet-tools

簡単な方法はありますか?

ベストアンサー1

parquet-toolsコマンドcatとオプションを使用する--jsonと、ローカル コピーなしで JSON 形式でファイルを表示できます。

次に例を示します。

parquet-tools cat --json hdfs://localhost/tmp/save/part-r-00000-6a3ccfae-5eb9-4a88-8ce8-b11b2644d5de.gz.parquet

これはデータを JSON 形式で出力します:

{"name":"gil","age":48,"city":"london"}
{"name":"jane","age":30,"city":"new york"}
{"name":"jordan","age":18,"city":"toronto"}

免責事項: これは Cloudera CDH 5.12.0 でテストされました

おすすめ記事