60個の大容量ファイルを比較し、すべてのファイルに共通のラインのみ出力

Question

この試み、

awk '
    BEGINFILE{fnum++; delete f;}
    !f[$0]++{s[$0]++;}
    END {for (l in s){if (s[l] == fnum) print l}}
' files*

説明する：

BEGINFILE { ... }各ファイルの先頭から実行
- fnum++ファイルカウンタを増やす
- delete f 配列の削除これは使用されますファイルごとの冗長ラインフィルタリング（posix互換ソリューションリンクを参照）
!f[$0]++ { ... }ファイルの最初の行でのみ実行（f[$0]0（false）の場合）
- s[$0]++行カウンタをインクリメントします。
END { ... }前回実行
- for (l in s){if (s[l] == fnum) print l}行を繰り返し、ファイル数と同じ回数で発生する各行を印刷します。

600,000行はメモリに十分です。それ以外の場合は、sブロックより小さいものfnumをすべて削除する危険がありますBEGINFILE{...}。

Answer 1

この試み、

awk '
    BEGINFILE{fnum++; delete f;}
    !f[$0]++{s[$0]++;}
    END {for (l in s){if (s[l] == fnum) print l}}
' files*

説明する：

BEGINFILE { ... }各ファイルの先頭から実行
- fnum++ファイルカウンタを増やす
- delete f 配列の削除これは使用されますファイルごとの冗長ラインフィルタリング（posix互換ソリューションリンクを参照）
!f[$0]++ { ... }ファイルの最初の行でのみ実行（f[$0]0（false）の場合）
- s[$0]++行カウンタをインクリメントします。
END { ... }前回実行
- for (l in s){if (s[l] == fnum) print l}行を繰り返し、ファイル数と同じ回数で発生する各行を印刷します。

600,000行はメモリに十分です。それ以外の場合は、sブロックより小さいものfnumをすべて削除する危険がありますBEGINFILE{...}。

おすすめ記事