GNU並列と分割の使用

Question

--pipelineを使用してください：

cat 2011.psv | parallel --pipe -l 50000000 ./carga_postgres.sh

ファイルではなく標準入力から読み取るには ./carga_postgres.sh が必要で、GNU パラレルバージョン < 20130222 では速度が遅い

正確に50000000行を必要としない場合は、--blockが高速です。

cat 2011.psv | parallel --pipe --block 500M ./carga_postgres.sh

これにより、約 500 MB の分割チャンクが \n 渡されます。

./carga_postgres.shには何が含まれているのかわかりませんが、ユーザー名とパスワードを含むpsqlが含まれているようです。この場合、GNU SQL（GNU Parallelの一部）を使用できます。

cat 2011.psv | parallel --pipe --block 500M sql pg://user:pass@host/db

主な利点は、一時ファイルを保存する必要はありませんが、すべてのファイルをメモリ/パイプラインに保存できることです。

./carga_postgres.sh が標準入力から読み取れないがファイルから読み取る必要がある場合は、ファイルに保存できます。

cat 2011.psv | parallel --pipe --block 500M "cat > {#}; ./carga_postgres.sh {#}"

大規模な雇用はしばしば途中にあります。 GNU Parallel は失敗したタスクを再実行することで助けることができます。

cat 2011.psv | parallel --pipe --block 500M --joblog my_log --resume-failed "cat > {#}; ./carga_postgres.sh {#}"

失敗した場合は、上記のコマンドを再実行できます。正常に処理されたブロックはスキップされます。

Answer 1