複数のファイルでzgrepのパフォーマンスが低下する

Question

79MB grep "string"は作業が難しいでしょう。この行はB.txt正規表現ですか、それとも同じ固定文字列ですか？固定文字列の場合、A.gz行全体で同じように表示されますか？ Uncompressedの行数はA.gzの行と一致すると予想されますかB.txt？

パターンマッチ提案

の行がB.txt実際に正規表現であるか、行の部分文字列である場合は、次のようなものをA.gz使用する必要があります。ハイパースキャン巨大な正規表現を処理するように設計されています。十分なディスク容量がある場合は、解凍してA.gzHyperScanを動作させることができます（HyperScanが検索中にシェルにすぐに解凍することもできます）。試してみるもう1つの選択肢は次のとおりです。リップグレップ。

フルラインマッチング提案

固定された行文字列全体を処理B.txtし、圧縮されていない文字列にA.gz比較的小さい（たとえば100 MB程度）一致する行が含まれている場合は、前処理プログラムを作成する方が良いかもしれませんA.gz。

各行をハッシュB.txtしてハッシュを覚えます。
次に、非圧縮ハッシュの行が前のハッシュA.gzと同じであることを確認します。そのC.txt場合は、追加の処理を準備するためにその行を印刷します（例：Enter）。
ここで最後のチェックを行います。各行がその中にあるかどうかをB.txtより厳密に調べますC.txt（またはその逆 - どのファイルが小さいかによって異なります）。

初期近似フィルタリングを実行するいくつかのコードは次のとおりです。

# Do a quick APPROXIMATE filter of lines in FILENEEDLES that are also in
# FILEHAYSTACK
import sys

def main():
    if len(sys.argv) < 2:
        print("usage: %s FILENEEDLES FILEHAYSTACK" % sys.argv[0])
        exit(1)

    first_filename = sys.argv[1]
    second_filename = sys.argv[2]

    line_hashes = set()

    with open(first_filename, "r") as f:
        for line in f:
            line_hashes.add(hash(line))

    with open(second_filename, "r") as f:
        for line in f:
            if hash(line) in line_hashes:
                sys.stdout.write(line)

if __name__ == "__main__":
    main()

たとえば、

$ echo -e '1\n2\n3' > B.txt
$ echo -e '2\n3\n4\5' | gzip > A.gz
$ ./approxfilter.py B.txt <(gzip -dc A.gz) > candidates.txt
$ cat candidates.txt
2
3

これで、行の出力が正確に一致することを確認するためにCandidate.txtをチェックする必要がありますB.txt（しかし、これはより小さくて簡単な問題であることを願っています。アーカイブ可能な範囲内で）（質問者は、後でコメントに完全な行長文字列を使用しないため、このアプローチが機能しないことを明確にしました）。

Answer 1

79MB grep "string"は作業が難しいでしょう。この行はB.txt正規表現ですか、それとも同じ固定文字列ですか？固定文字列の場合、A.gz行全体で同じように表示されますか？ Uncompressedの行数はA.gzの行と一致すると予想されますかB.txt？

パターンマッチ提案

の行がB.txt実際に正規表現であるか、行の部分文字列である場合は、次のようなものをA.gz使用する必要があります。ハイパースキャン巨大な正規表現を処理するように設計されています。十分なディスク容量がある場合は、解凍してA.gzHyperScanを動作させることができます（HyperScanが検索中にシェルにすぐに解凍することもできます）。試してみるもう1つの選択肢は次のとおりです。リップグレップ。

フルラインマッチング提案

固定された行文字列全体を処理B.txtし、圧縮されていない文字列にA.gz比較的小さい（たとえば100 MB程度）一致する行が含まれている場合は、前処理プログラムを作成する方が良いかもしれませんA.gz。

各行をハッシュB.txtしてハッシュを覚えます。
次に、非圧縮ハッシュの行が前のハッシュA.gzと同じであることを確認します。そのC.txt場合は、追加の処理を準備するためにその行を印刷します（例：Enter）。
ここで最後のチェックを行います。各行がその中にあるかどうかをB.txtより厳密に調べますC.txt（またはその逆 - どのファイルが小さいかによって異なります）。

初期近似フィルタリングを実行するいくつかのコードは次のとおりです。

# Do a quick APPROXIMATE filter of lines in FILENEEDLES that are also in
# FILEHAYSTACK
import sys

def main():
    if len(sys.argv) < 2:
        print("usage: %s FILENEEDLES FILEHAYSTACK" % sys.argv[0])
        exit(1)

    first_filename = sys.argv[1]
    second_filename = sys.argv[2]

    line_hashes = set()

    with open(first_filename, "r") as f:
        for line in f:
            line_hashes.add(hash(line))

    with open(second_filename, "r") as f:
        for line in f:
            if hash(line) in line_hashes:
                sys.stdout.write(line)

if __name__ == "__main__":
    main()

たとえば、

$ echo -e '1\n2\n3' > B.txt
$ echo -e '2\n3\n4\5' | gzip > A.gz
$ ./approxfilter.py B.txt <(gzip -dc A.gz) > candidates.txt
$ cat candidates.txt
2
3

これで、行の出力が正確に一致することを確認するためにCandidate.txtをチェックする必要がありますB.txt（しかし、これはより小さくて簡単な問題であることを願っています。アーカイブ可能な範囲内で）（質問者は、後でコメントに完全な行長文字列を使用しないため、このアプローチが機能しないことを明確にしました）。

複数のファイルでzgrepのパフォーマンスが低下する

ベストアンサー1

パターンマッチ提案

フルラインマッチング提案

おすすめ記事