別のファイル内の各クエリの2行目を印刷する必要があります。

Question

sed -E "/^$/d" file | awk '/> Query/{printf "%s\t", $3; nr[NR+2]}; NR in nr '

出力

TRINITY_DN109574_c0_g1_i1       ***** No hits found *****
TRINITY_DN109587_c0_g1_i1       ***** No hits found *****
TRINITY_DN109586_c0_g2_i1       Sequences producing significant alignments:

牙...

あなたのIDとヒットラインの間隔はヒットするかどうかによって異なりますが、余分な空の行によってのみ間隔が変わるため、空の行をすべて削除すると

sed -E "/^$/d" file

その後、ヒット/失敗行は常にクエリの前の2行です。次に、パイプを介して|クエリawkで始まる行のみを探します。

awk '/> Query/'

$3ただし、クエリ行には3番目（スペースで区切られた）フィールドのみが必要です。これはあなたのIDだからです。

awk '/> Query/{print $3}'

正規表現の一致を見つけるたびに、一致するヒット行の行番号を計算して配列に保存しようとしています。私は配列を呼び出し、nr私たちが興味のあるヒット行は現在一致する行NR+ 2です。

awk '/> Query/{print $3; nr[NR+2]}'

NR最後に、2番目の条件を追加して、正規表現と一致しない行が配列にあることを確認してnr印刷します。また、IDの末尾にヒットを出力するように最初の項目をprint変更してください。printf

awk '/> Query/{printf "%s\t", $3; nr[NR+2]}; NR in nr;'

NR次の正規表現の一致よりも多くの数字を追加すると、このソリューションは中断されます。

Answer 1

sed -E "/^$/d" file | awk '/> Query/{printf "%s\t", $3; nr[NR+2]}; NR in nr '

出力

TRINITY_DN109574_c0_g1_i1       ***** No hits found *****
TRINITY_DN109587_c0_g1_i1       ***** No hits found *****
TRINITY_DN109586_c0_g2_i1       Sequences producing significant alignments: