awk - 特定の列に他のテキストファイルの要素が部分文字列として含まれている場合、行を削除します。

Question

試してみるにはいくつかのオプションがあります。すべては、2番目のファイルで連想配列を構成し、最初のファイルの最後のフィールドに対してその要素をテストし、一致が見つかった場合に中断する方法に基づいています。

真の部分文字列の一致
```
awk -F'\t' 'NR==FNR{a[$1]; next} {for(i in a) {if(index($NF,i)>0) next}} 1' File2 File1
```
（たとえば）これはおよび/またはの部分文字列Cj0012cで識別されます。ABCj0012cCj0012cdef
上記と似ていますが、部分単語の一致を防ぐために、要素の両側を空白文字で埋めます。
```
awk -F'\t' 'NR==FNR{a[$1]; next} {for(i in a) {if(index($NF," "i" ")>0) next}} 1' File2 File1
```
a[" "$1" "]（必要に応じて配列割り当て呼び出しに文字列を入力できます）
（GNU awkが必要な場合があります）正規表現を使用して、束ねられたFile2文字列で構成されるパターンを一致させます。単語境界アンカー
```
gawk -F'\t' 'NR==FNR{a[$1]; next} {for(i in a) {if($NF ~ "\\<" i "\\>") next}} 1' File2 File1
```
このバージョンの潜在的な問題は、要素にFile2正規表現メタ文字を含めることができることです。これらの文字は何らかの方法でエスケープする必要があります。

Answer 1

試してみるにはいくつかのオプションがあります。すべては、2番目のファイルで連想配列を構成し、最初のファイルの最後のフィールドに対してその要素をテストし、一致が見つかった場合に中断する方法に基づいています。

真の部分文字列の一致
```
awk -F'\t' 'NR==FNR{a[$1]; next} {for(i in a) {if(index($NF,i)>0) next}} 1' File2 File1
```
（たとえば）これはおよび/またはの部分文字列Cj0012cで識別されます。ABCj0012cCj0012cdef
上記と似ていますが、部分単語の一致を防ぐために、要素の両側を空白文字で埋めます。
```
awk -F'\t' 'NR==FNR{a[$1]; next} {for(i in a) {if(index($NF," "i" ")>0) next}} 1' File2 File1
```
a[" "$1" "]（必要に応じて配列割り当て呼び出しに文字列を入力できます）
（GNU awkが必要な場合があります）正規表現を使用して、束ねられたFile2文字列で構成されるパターンを一致させます。単語境界アンカー
```
gawk -F'\t' 'NR==FNR{a[$1]; next} {for(i in a) {if($NF ~ "\\<" i "\\>") next}} 1' File2 File1
```
このバージョンの潜在的な問題は、要素にFile2正規表現メタ文字を含めることができることです。これらの文字は何らかの方法でエスケープする必要があります。

おすすめ記事