プロジェクトの 1 つで、列指向ストレージとして parquet を使用したいと考えています。ただし、hadoop/hdfs ライブラリに依存したくはありません。hdfs 以外で parquet を使用することは可能ですか? または、最小依存関係は何ですか?
ベストアンサー1
同じ質問を調べてみたら、どうやら今のところは不可能のようだ。私はこれを見つけたgit の問題は、Hadoop API から parquet を分離することを提案しています。どうやらまだ実行されていないようです。
Apache Jiraで見つけた問題これは、Hadoop の外部で parquet ファイルを読み取る方法を要求しています。これは、執筆時点では未解決です。
編集:
問題はgithubではもう追跡されていません(上記の最初のリンクは無効です)。私が見つけた新しい問題はここにありますApacheのJira次の見出しを付けます。
Hadoop に依存せずに Java で parquet ファイルを簡単に読み書きできるようにします