ほぼ重複した行を削除

Question

最も簡単な場合は、行なしで削除するには削除してから:FOOuniqを渡すだけです:FOO。

$ sed 's/:FOO$//' file | uniq
red.7
green.2
blue.6
yellow.9

行を保持し:FOO、接尾辞のない兄弟の後ろに常に来ると仮定する場合は、次のことを試すことができます。

$ rev file | sed 's/:/ /' | uniq -f1 | sed 's/ /:/' | rev
red.7
green.2:FOO
blue.6
yellow.9:FOO

rev各行を右から左に印刷します。最初のフィールドを空白に置き換えると、sed認識（またはこの場合）を無視する必要がある最初のフィールドとして使用できます。次の sed はその後に次のフィールドを配置し、最後のフィールドは左から再印刷されます。右。:uniqFOOOOF:rev

残念ながら、文書が主張する内容にもかかわらず、uniqフィールド区切り文字としてスペースやタブだけでなく、英数字ではなく、ほぼすべての文字を使用します。

$ printf 'foo/1\nfoo/2\nfoo%%3\nfoo:4\n' 
foo/1
foo/2
foo%3
foo:4
$ printf 'foo/1\nfoo/2\nfoo%%3\nfoo:4\n'  | uniq -f1
foo/1

これは、対応する文字がある場合、上記の回避策が機能しないことを意味します。あるいは、ファイルのすべてのインスタンスを削除し、結果を新しいインスタンスにgrepパターンリストとして提供することで、次のことを回避できます。:FOO:FOOgrep

$ grep -hFxv "$(grep ':FOO' file | cut -d: -f1)" file 
red.7
green.2:FOO
blue.6
yellow.9:FOO

Answer 1

最も簡単な場合は、行なしで削除するには削除してから:FOOuniqを渡すだけです:FOO。

$ sed 's/:FOO$//' file | uniq
red.7
green.2
blue.6
yellow.9

行を保持し:FOO、接尾辞のない兄弟の後ろに常に来ると仮定する場合は、次のことを試すことができます。

$ rev file | sed 's/:/ /' | uniq -f1 | sed 's/ /:/' | rev
red.7
green.2:FOO
blue.6
yellow.9:FOO

rev各行を右から左に印刷します。最初のフィールドを空白に置き換えると、sed認識（またはこの場合）を無視する必要がある最初のフィールドとして使用できます。次の sed はその後に次のフィールドを配置し、最後のフィールドは左から再印刷されます。右。:uniqFOOOOF:rev

残念ながら、文書が主張する内容にもかかわらず、uniqフィールド区切り文字としてスペースやタブだけでなく、英数字ではなく、ほぼすべての文字を使用します。

$ printf 'foo/1\nfoo/2\nfoo%%3\nfoo:4\n' 
foo/1
foo/2
foo%3
foo:4
$ printf 'foo/1\nfoo/2\nfoo%%3\nfoo:4\n'  | uniq -f1
foo/1

これは、対応する文字がある場合、上記の回避策が機能しないことを意味します。あるいは、ファイルのすべてのインスタンスを削除し、結果を新しいインスタンスにgrepパターンリストとして提供することで、次のことを回避できます。:FOO:FOOgrep

$ grep -hFxv "$(grep ':FOO' file | cut -d: -f1)" file 
red.7
green.2:FOO
blue.6
yellow.9:FOO

おすすめ記事