2つのtsvファイルの比較

Question

この作業は、2 つのステップで実行する方が簡単です。

すべてを補助ファイルに入れてソートします。

awk 'FNR>1{print $1, $2, $3, $4 }' file1 file2 | sort -k1 >> file3

awkその後、すべて一度だけ繰り返します。

awk '{if (NF == 3) {chr=$1; lo=$2; hi=$3} else { if ($1==chr && $2>=lo && $2<=hi) print $1":"lo"-"hi", "$2}}' file3

見てみると...フィールドが3つだけで、より多くの行があるので、どのawk行から出てくるのかがわかります。file3file1file2

if (NF == 3) {chr=$1; lo=$2; hi=$3}

file3このテストは、あなたがの行（イン）にいるときに適用されますfile1。その時点から行を見つけるたびに、合計値と現在の染色体をfile1取得したいと思います。lohi

else

そうでなければ、私たちはただ一行になりますfile2...

 if ($1==chr && $2>=lo && $2<=hi) print $1":"lo"-"hi", "$2}

私たちが同じ染色体にあり、関心のある値が$2以前に覚えた値loと限界の間にある場合は、あなたの形式で印刷されます。hi

出力は次のとおりです

chr1:235097868-235098170, 235097869
chr1:235097868-235098170, 235097888

ノート

実際、あなたは最初でawk唯一のことを忘れることができます。

cat file1 file2 | sort > file3

行全体を並べ替えるので、chr不可論的でなければなりません。

Answer 1