列の部分文字列に基づいて大容量ファイルの重複行のみを保存する方法は？

Question

アッ

テストする部分文字列が各行の約20％でファイルが100 GBの場合、一般的なawkソリューションには最大20 GBのメモリが必要になることがあります。このソリューションを使用するには、ファイルを2回解析する必要があります（またはすべての行をメモリに保存する必要があり、これはより悪い）。まず、部分文字列を連想配列に保存しながら、発生回数をカウントし、固有の内容ではなく内容を印刷する必要があります。

awk 'FNR==NR{seen[substr($0,22,16)]++; next} seen[substr($0,22,16)] > 1' file file

ただし、お客様の場合、この連想配列がメモリーに収まらない可能性があります。

タイプ

メモリを扱うソリューションの場合は、利用sort可能なメモリのみを使用し、必要に応じて一時ファイルを使用してマージソートします。少し遅いかもしれませんが、メモリが足りなくても実行できます。

LC_ALL=C sort -k1.22,1.37 file | uniq -D -s21 -w16

LC_ALL=CファイルにUTF-8以外のマルチバイト文字が含まれている場合は、その文字を削除できます。そうでない場合は、100 GBの空き領域と必要な権限を持つ場所を指すコマンドにsort別のtmp場所を定義する必要があります。 100GBの空き容量がありません（時にはパーティションが小さくなります）。-T, --temporary-directory=DIR/tmp/

上記のコードはuniq最初の21文字をスキップし、その後の最初の16文字をテストして一意性をテストします。-D重複した行だけが印刷されます。同様に、上記のsortコマンドは各行に対して同じ固定文字範囲をテストします。

重複した部分文字列とawkのみを抽出する

データに基づいてこのソリューションを試してみて、上記のアイデアを組み合わせてメモリに合わせてより速く試してみてください。実際、これはawkメモリに適したソリューションです。このコマンドは次のとおりです。

cut -c22-37 file | sort | uniq -d > subs.txt

ファイル内の指定された固定位置で複数回発生する部分文字列を抽出します。それぞれ一度だけ印刷されますsubs.txt。固有値が除外されたため、のサイズは、subs.txt最初のソリューションの連想配列サイズよりも小さくなります。

これでsubs.txt、サイズが十分に小さくメモリに収まる場合（繰り返しの頻度によって異なります）、ファイルを一度だけ解析できます。

awk 'FNR==NR{seen[$0]; next} (substr($0,22,16) in seen)' subs.txt file >> output

あるいは、このファイルをN個の部分に分割し、split -l上記のコマンドを使用して実行してファイルをN回解析し、毎回同じ出力ファイルに追加することもできます。大きさに応じsubs.txtて1～2段階で出来れば、全体分類ソリューションよりも早いと思います。

Answer 1

アッ

テストする部分文字列が各行の約20％でファイルが100 GBの場合、一般的なawkソリューションには最大20 GBのメモリが必要になることがあります。このソリューションを使用するには、ファイルを2回解析する必要があります（またはすべての行をメモリに保存する必要があり、これはより悪い）。まず、部分文字列を連想配列に保存しながら、発生回数をカウントし、固有の内容ではなく内容を印刷する必要があります。

awk 'FNR==NR{seen[substr($0,22,16)]++; next} seen[substr($0,22,16)] > 1' file file

ただし、お客様の場合、この連想配列がメモリーに収まらない可能性があります。

タイプ

メモリを扱うソリューションの場合は、利用sort可能なメモリのみを使用し、必要に応じて一時ファイルを使用してマージソートします。少し遅いかもしれませんが、メモリが足りなくても実行できます。

LC_ALL=C sort -k1.22,1.37 file | uniq -D -s21 -w16

LC_ALL=CファイルにUTF-8以外のマルチバイト文字が含まれている場合は、その文字を削除できます。そうでない場合は、100 GBの空き領域と必要な権限を持つ場所を指すコマンドにsort別のtmp場所を定義する必要があります。 100GBの空き容量がありません（時にはパーティションが小さくなります）。-T, --temporary-directory=DIR/tmp/

上記のコードはuniq最初の21文字をスキップし、その後の最初の16文字をテストして一意性をテストします。-D重複した行だけが印刷されます。同様に、上記のsortコマンドは各行に対して同じ固定文字範囲をテストします。

重複した部分文字列とawkのみを抽出する

データに基づいてこのソリューションを試してみて、上記のアイデアを組み合わせてメモリに合わせてより速く試してみてください。実際、これはawkメモリに適したソリューションです。このコマンドは次のとおりです。

cut -c22-37 file | sort | uniq -d > subs.txt

ファイル内の指定された固定位置で複数回発生する部分文字列を抽出します。それぞれ一度だけ印刷されますsubs.txt。固有値が除外されたため、のサイズは、subs.txt最初のソリューションの連想配列サイズよりも小さくなります。

これでsubs.txt、サイズが十分に小さくメモリに収まる場合（繰り返しの頻度によって異なります）、ファイルを一度だけ解析できます。

awk 'FNR==NR{seen[$0]; next} (substr($0,22,16) in seen)' subs.txt file >> output

あるいは、このファイルをN個の部分に分割し、split -l上記のコマンドを使用して実行してファイルをN回解析し、毎回同じ出力ファイルに追加することもできます。大きさに応じsubs.txtて1～2段階で出来れば、全体分類ソリューションよりも早いと思います。

列の部分文字列に基づいて大容量ファイルの重複行のみを保存する方法は？

ベストアンサー1

アッ

タイプ

重複した部分文字列とawkのみを抽出する

おすすめ記事