正しい xargs 並列使用法

Question

私はあなたの問題が次のとおりです。Python。各ファイルにどのような処理が行われるかは明らかではありませんが、メモリ内のデータだけを処理すると仮定すると、3千万個のPython仮想マシン（インタプリタ）が実行され、ランタイムが支配するようになります。

単一のファイルの代わりにファイルのリストを取得するようにPythonプログラムをリファクタリングできる場合、パフォーマンスは大幅に向上します。その後、xargsを使用してパフォーマンスをさらに向上させることができます。たとえば、40個のプロセスがあり、それぞれ1000個のファイルを処理します。

find ./data -name "*.json" -print0 |
  xargs -0 -L1000 -P 40 python Convert.py

これはPythonが悪くて遅い言語だと言うものではありません。それは悪くて遅い言語です。開始時刻に最適化されていません。これは、仮想マシンベースの言語または解釈された言語と見なすことができます。たとえば、Javaははるかに悪いです。プログラムがCで書かれている場合は、各ファイルを処理するために別々のオペレーティングシステムプロセスを起動するのにまだコストがかかりますが、コストははるかに少なくなります。

そこから-Pデータの読み書き中にアイドルプロセッサを利用するために、プロセスの数を増やして速度をわずかに上げることができるかどうかを確認できます。

Answer 1

私はあなたの問題が次のとおりです。Python。各ファイルにどのような処理が行われるかは明らかではありませんが、メモリ内のデータだけを処理すると仮定すると、3千万個のPython仮想マシン（インタプリタ）が実行され、ランタイムが支配するようになります。

単一のファイルの代わりにファイルのリストを取得するようにPythonプログラムをリファクタリングできる場合、パフォーマンスは大幅に向上します。その後、xargsを使用してパフォーマンスをさらに向上させることができます。たとえば、40個のプロセスがあり、それぞれ1000個のファイルを処理します。

find ./data -name "*.json" -print0 |
  xargs -0 -L1000 -P 40 python Convert.py

これはPythonが悪くて遅い言語だと言うものではありません。それは悪くて遅い言語です。開始時刻に最適化されていません。これは、仮想マシンベースの言語または解釈された言語と見なすことができます。たとえば、Javaははるかに悪いです。プログラムがCで書かれている場合は、各ファイルを処理するために別々のオペレーティングシステムプロセスを起動するのにまだコストがかかりますが、コストははるかに少なくなります。

そこから-Pデータの読み書き中にアイドルプロセッサを利用するために、プロセスの数を増やして速度をわずかに上げることができるかどうかを確認できます。

正しい xargs 並列使用法

ベストアンサー1

おすすめ記事