大容量ファイルのパフォーマンス向上

Question

パフォーマンスの鍵は、大容量ファイルを一度だけ読むことです。

複数のパターンを別々の行に配置して grep に渡すことができます。これは通常、grepにファイルからパターンを読み取るように指示することによって行われます。

grep -F -f 300KFile 30MFile

これにより、大きなファイル全体で一致を順番に出力し、複数のパターンに一致する行のみを一度だけ印刷します。また、これは行のどこでもパターンを探します。たとえば、パターンファイルに含まれている場合と1234などの行が一致します。123456,345678,2348962342478912,1211138,1234

前処理パターンにより、正確な列の一致を制限できます。たとえば、パターンに特殊文字が含まれていない場合()?*+\|[]{}:

<300KFile sed -e 's/^/(^|,)/' -e 's/$/($|,)/' |
grep -E -f - 30MFile

各パターンの最初の一致のみを維持することが重要な場合は、最初のパスを作成して上記の関連行のみを抽出し、awkまたはPerlで2番目のパスを作成してどのパターンが表示されたかを追跡します。

<300KFile sed -e 's/^/(^|,)/' -e 's/$/($|,)/' |
grep -E -f - 30MFile |
perl -l -F, -ape '
    BEGIN {
        open P, "300KFile" or die;
        %patterns = map {chomp; $_=>1} <P>;
        close P;
    }
    foreach $c (@F) {
        if ($patterns{$c}) {
            print;
            delete $patterns{$c};
        }
    }
'

Answer 1

パフォーマンスの鍵は、大容量ファイルを一度だけ読むことです。

複数のパターンを別々の行に配置して grep に渡すことができます。これは通常、grepにファイルからパターンを読み取るように指示することによって行われます。

grep -F -f 300KFile 30MFile

これにより、大きなファイル全体で一致を順番に出力し、複数のパターンに一致する行のみを一度だけ印刷します。また、これは行のどこでもパターンを探します。たとえば、パターンファイルに含まれている場合と1234などの行が一致します。123456,345678,2348962342478912,1211138,1234

前処理パターンにより、正確な列の一致を制限できます。たとえば、パターンに特殊文字が含まれていない場合()?*+\|[]{}:

<300KFile sed -e 's/^/(^|,)/' -e 's/$/($|,)/' |
grep -E -f - 30MFile

各パターンの最初の一致のみを維持することが重要な場合は、最初のパスを作成して上記の関連行のみを抽出し、awkまたはPerlで2番目のパスを作成してどのパターンが表示されたかを追跡します。

<300KFile sed -e 's/^/(^|,)/' -e 's/$/($|,)/' |
grep -E -f - 30MFile |
perl -l -F, -ape '
    BEGIN {
        open P, "300KFile" or die;
        %patterns = map {chomp; $_=>1} <P>;
        close P;
    }
    foreach $c (@F) {
        if ($patterns{$c}) {
            print;
            delete $patterns{$c};
        }
    }
'

大容量ファイルのパフォーマンス向上

ベストアンサー1

おすすめ記事