ファイル内で繰り返されるテキストブロックの識別

Question

行ごとの比較が許可されている場合、以下はファイル内でどの行が繰り返され、text各行が何回発生するかを示します。

sort text | uniq -c | grep -vE '^\s*1 '

例えば、

$ cat text
alpha
beta
alpha
gamma
alpha
beta
$ sort text | uniq -c | grep -vE '^\s*1 '
      3 alpha
      2 beta

一般的なUnixツールを使用すると、入力テスト形式があまりにも複雑ではないという前提で段落別または文章別の比較に拡張できます。

ファイルに次のものがtext含まれているとします。

This is a paragraph.

This is another
paragraph

This is
a paragraph.

Last sentence.

次のコマンドフラグは、複数回出現する段落を示しています。

$ awk -v RS=""  '{gsub(/\n/," "); print}' text | sort | uniq -c | grep -vE '^\s*1 '
      2 This is a paragraph.

awkこれは、テキストを段落（空行で区切った）に分割し、改行を空白に変換し、出力（段落ごとに1行）を並べ替え、uniqを渡して重複する段落を計算するために使用されます。

上記はGNUを使用してテストされましたawk。他の場合は、awk空行を段落（レコード）境界として定義する方法が異なる場合があります。

Answer 1