複数の大きなgzipファイルを使用するawkスクリプトを高速化する方法は？

Question

このコードは、反復間で同じループで多くの処理を実行します。 awksには、ループから削除するための複雑なループ最適化はありません。

    for(p in list){
        split($p, sp, ":");
        if (sp[1] != "0|0" && sp[1] != "0" && sp[1] != "."){

連想配列を埋めるために最初のファイルを読み取った後、連想配列は変更されませんが、listこの条件をテストするためにインデックス値を繰り返し分割します。代わりに、配列を繰り返して一致しない項目を削除できます。または...処理中に最初からこれらの項目を配列に挿入しないでくださいfile_1.in。その後、分割とテストを削除できます。ループ内の各項目は無条件にアクセスされますlist。

            printf("%s %s %s %s %s %s %s %s %s %s\n", 
            $1, $2, $3, $4, $5, $6, $7, $8, $9, $p) >> out"/"list[p]".tmp"

%sここに印刷された素材は、最後のフィールドを除いてループの各反復に対して同じです$p。sprintfループの外側を使用して9つのフィールドを文字列にフォーマットしたstr後、次のことができますprintf("%s %s", str, $p) >> out "/" list[p] ".tmp"。

明確ではない点：$p仮定の式はインデックスフィールドに適合する整数です。したがって、全体のロジックは偽のように見えます。つまり、役割を分割し、その分割の一部のフィールドをテストします。正の整数が予想される場合は、コロンを含めないでください。おそらくここで2番目の列をテストする予定ですか？printfpsplitp:plist[p]

それに加えて、プログラムの速度が大幅に遅くなる可能性があります。多数の出力ファイルに少量のデータが追加される、数千のオープンファイル記述子を維持します。圧縮ファイルの数百万行：各行に対して、ループは2,000を超える項目を含む連想配列を繰り返し、出力をさまざまなファイルに生成します。したがって、数百万の圧縮行は数十億の非圧縮行になります。

データをこの表現に拡張する目的が何であるか、自分に尋ねたいと思うかもしれません。後続処理の場合は、スペースを節約する表現を使用できます。コードawkは、ある種のデータベースが暗黙的に処理できる一連の関連を事前計算するようです。

Answer 1

このコードは、反復間で同じループで多くの処理を実行します。 awksには、ループから削除するための複雑なループ最適化はありません。

    for(p in list){
        split($p, sp, ":");
        if (sp[1] != "0|0" && sp[1] != "0" && sp[1] != "."){