コマンドラインから Parquet ファイルの内容を検査するにはどうすればよいですか?
今私が見ている唯一の選択肢は
$ hadoop fs -get my-path local-file
$ parquet-tools head local-file | less
私はしたいと思います
- 作成を
local-file
避ける json
印刷されるタイプなしのテキストではなく、ファイルの内容を表示しますparquet-tools
。
簡単な方法はありますか?
ベストアンサー1
parquet-tools
コマンドcat
とオプションを使用する--json
と、ローカル コピーなしで JSON 形式でファイルを表示できます。
次に例を示します。
parquet-tools cat --json hdfs://localhost/tmp/save/part-r-00000-6a3ccfae-5eb9-4a88-8ce8-b11b2644d5de.gz.parquet
これはデータを JSON 形式で出力します:
{"name":"gil","age":48,"city":"london"}
{"name":"jane","age":30,"city":"new york"}
{"name":"jordan","age":18,"city":"toronto"}
免責事項: これは Cloudera CDH 5.12.0 でテストされました