特定の条件が満たされたときに awk を使用して行セットを削除する方法

Question

あなたが本当に望むのは、...個々の行ではなく重複した区切りレコードを削除することです。公開した例を見ると、これはGNU awkです（すでに-i inplace)マルチキャラRSで使用しています：

$ awk 'BEGIN{RS=ORS="</p>\n"} !seen[$0]++' file
<p>
This is duplicate.
</p>
<p>
This is original.
</p>

これはレコード内の行数に関係なく機能します...。たとえば、重複レコードが複数行の場合は、次のように入力します。

$ cat file
<p>
This
is
duplicate.
</p>
<p>
This is original.
</p>
<p>
This
is
duplicate.
</p>

このスクリプトはまだ重複エントリを削除します。

$ awk 'BEGIN{RS=ORS="</p>\n"} !seen[$0]++' file
<p>
This
is
duplicate.
</p>
<p>
This is original.
</p>

Answer 1

あなたが本当に望むのは、...個々の行ではなく重複した区切りレコードを削除することです。公開した例を見ると、これはGNU awkです（すでに-i inplace)マルチキャラRSで使用しています：

$ awk 'BEGIN{RS=ORS="</p>\n"} !seen[$0]++' file
<p>
This is duplicate.
</p>
<p>
This is original.
</p>

これはレコード内の行数に関係なく機能します...。たとえば、重複レコードが複数行の場合は、次のように入力します。

$ cat file
<p>
This
is
duplicate.
</p>
<p>
This is original.
</p>
<p>
This
is
duplicate.
</p>

このスクリプトはまだ重複エントリを削除します。

$ awk 'BEGIN{RS=ORS="</p>\n"} !seen[$0]++' file
<p>
This
is
duplicate.
</p>
<p>
This is original.
</p>

おすすめ記事