GNUを使用した並列ラインベースの出力、一時ファイルは不要

Question

提案どおりに実行するには、lz4各パイプの出力を別々のパイプに送信する必要があり、すべてのパイプから読み取って出力を複数行に分割する選択/ポーリングループが必要です。パイプ。

これは膨大なコストのように聞こえます。このようなオーバーヘッドがなくても、高速SSDを搭載した12年の4コア8スレッドノートブックprintf '%s\0' /var/lib/apt/lists/*lz4 | xargs -r0 -n 1 -P8 lz4 -dc（GNUパラレルオーバーヘッドがない場合でも）ではlz4 -dmc /var/lib/apt/lists/*lz4。

理想的には、並列命令出力ラインが最初にバッファリングされることを望む。これを行うために使用できる多くの方法がありますstdbuf -oL。

そうではありませんが、次のように2番目のアプローチ（1つの出力に対して1つのプロセス）をlz4手動で実装できます。lz4

printf '%s\0' /var/lib/apt/lists/*lz4 |
  stdbuf -oL xargs -r0 -n 1 -P4 sh -c 'lz4 -dc "$1" | paste' sh | 
  wc -c

（pasteこれは一度に1行ずつ入力を処理するコマンドで、出力を確実にラインバッファリングします。GNUstdbufも参照してください。一度に1行ずつ出力するのを避け、一度に1バイトずつ入力を読み込みます。）grepgrep --line-buffered '^'sed -u

出力が破棄されても、/dev/null私のシステムでは非並列システムより13倍遅くなりますlz4 -dmc /var/lib/apt/lists/*lz4（6.5秒対0.5秒）。

これはpasteCで書かれています。 GNU並列処理はで書かれており、perl内部的にこのような機能をサポートすれば、はるかに効率的ではない可能性が高くなります。

並列化（少なくともこの方法）は、lz4簡単な解凍とは異なり、比較的少ないテキスト出力を生成するCPU集約タスクにのみ適しています。

Answer 1