基本的なgrep / awkヘルプ - ファイル内の用語のリストを含むすべての行を別々のファイルに抽出します。

Question

data.txt以下にリストされた遺伝子から行を抽出するにはgenelist.txt:

grep -w -F -f genelist.txt data.txt > newdata.txt

grep使用されたオプション：

-w単語全体に一致するように指示しますgrep（つまり、ABC123どちらも一致しませんABC1234）。
-F正規表現の代わりに固定文字列（プレーンテキスト）を検索する
-f genelist.txtファイルから検索パターンを読む

ヘッダ行も必要な場合（例1、例2など）：

grep -w -F -f genelist.txt -e Sample data.txt > newdata.txt

-e Sample「サンプル」を検索することもできます。

genelist.txt存在しない行を見つけるには、次のようにしますnewdata.txt。

grep -v -w -F -f <(sed -E -e 's/(\t|  +).*//' newdata.txt) genelist.txt

-v検索を逆にして一致しない行を印刷します。

残りのgrepオプションは同じですが、そのオプションを含むファイルを使用する代わりに、-f次のファイルを使用します。プロセスの交換（望むより返品）、これにより実際のファイルの代わりにコマンドを使用できます。このコマンドで生成されたすべての出力は、「ファイル」の内容と見なされます。

sed -E -e 's/(\t| +).*//' newdata.txtこの例では、最初のTAB文字または最初に表示される空白ペア内のすべての項目を削除してから、newdata.txtの各行を出力するコマンドを使用します。つまり、最初のフィールド（「遺伝子A」など）です。 a）データがスペースで区切られているかTABで区切られているかどうかはわかりません。b）例の最初のフィールドにスペースが含まれているため、TABまたはダブルスペースを使用する必要があります。

sed使用されたオプション：

-E(拡張正規表現を使用すると、一般的な、およびを使用できます。これは)、でエスケープするよりも+読みやすくなります。\\(\)\+
-e 's/(\t| +).*//'入力に適用する sed スクリプト (newdata.txt) を指定します。

例でこのコマンドを実行すると、data.txt次の出力が生成されます。

$ sed -E -e 's/(\t|  +).*//' data.txt

Gene A
Gene B
Gene C
Gene D

それにもかかわらず、このコマンドの出力はsedこのコマンドの検索パターンのリストとして使用されますgrep。

Answer 1