大きなテキストファイルから行のサブセットを抽出する

Question

これにより、列9が一致するすべての行が提供されますMEF2。

awk -F"\t" '$9~/MEF2/' file > output

ファイルが次のようになるとします。いつもタブで区切ると機能し、安心できます。これは、得られる誤差制限がゼロに近いです。

ただし、Rなどの項目を取得しようとしましたが（おそらくを使用してread.table("file",sep="\t")）機能しない場合は、フィールド数が異なるいくつかの行がある可能性があります（確認方法については最後を参照）。その場合、常に最後のフィールドに興味があると仮定すると、フィールドの数に関係なく、$(NF)inを使用して最後のフィールドを印刷できます。awk

awk -F"\t" '$(NF)~/MEF2/' file > output

それでも確認が必要だと思われる場合は、MEF2一致がどこにあっても、一致する行をすべて抽出して結果を比較できます。

grep MEF2 file > output2

wc一度インポートすると、同じ数の行があることを確認するために使用できます。そうでない場合は、以下を実行して違いを確認してください。

grep -vFf output output2

このコマンドは、出力1にない出力2のすべての行を印刷します。とにかく彼らはMEF2ラインナップのどこかにある可能性がありますが、9回にはそうではありません。 9番目のフィールドにある場合、ファイルはタブで区切られておらず、データに問題があります。

上記の方法はawkおそらく最も簡単な解決策です。しかし、同じことを行う他の解決策は次のとおりです。

真珠

perl -F"\t" -lane '$F[8]=~/MEF2/ && print' file

sed（9つ以上のフィールドがある場合、この行は誤った行と一致する可能性があります。）
```
sed -n '/\t.*\t.*\t.*\t.*\t.*\t.*\t.*\t.*MEF2.*/p' file
```

grep

grep -P '^.+?\t.*\t.*\t.*\t.*\t.*\t.*\t.*\t.*MEF2.*' file

これらすべてが同じ出力を生成しない場合は、ファイルに問題がある可能性があります。確認できるもう1つのことは、すべての行に9つのフィールドがあることを確認することです。それ以外の場合は問題があります。

awk -F"\t" 'NF!=9' file

上記のコードは、9つのタブで区切られたフィールドを含まないすべての行を印刷します。出力があると、印刷される行に問題があるのです。

Answer 1