2つのtsvファイルを比較しようとしています。照会するファイル(file1)は次のとおりです。
Chr Start End
chr1 234738546 234738934
chr1 234792654 234793537
chr1 234908151 234908864
chr1 235097868 235098170
chr1 236080566 236081347
chr1 240307621 240308262
chr1 240308207 240308637
chr1 240308546 240308962
chr1 242627058 242627262
chr1 243923195 243923709
別のファイル(file2)の2番目の列には、確認したい番号が列2と列3の数字の間にあることを確認し、条件が満たされるまで繰り返します。
例: &242627060
の間242627058
242627262
ファイル2は次のようになります。
Chr Centre_Coord Ignore_this_col Secondary Information
chr1 234765055 234765056 NR_033927_LINC00184 . +
chr1 234782033 234782034 NR_125944_LOC101927787 . +
chr1 234859787 234859788 NR_038856_LINC01132 . +
chr1 234895802 234895803 NR_148962_PP2672 . -
chr1 235099745 235099746 NR_125945_LOC101927851 . -
chr1 235324564 235324565 NR_144491_RBM34 . -
chr1 235097888 235291252 NR_002956_SNORA14B . -
chr1 235097869 235353431 NR_039908_MIR4753 . -
chr1 235324564 235324565 NR_027762_RBM34 . -
chr1 235324564 235324565 NM_001346738_RBM34 . -
私に次のような結果を与えます。
chr1:242627058-242627262, 242627060
-
分離された座標のソースはカンマでfile1
2番目の列に分けられますfile2
。
whileループを試しましたが、awk
何らかの理由で使用できません。
while read a b c; do col2=$b; col3=$3; tail -n +1 path/to/file2 | awk 'BEGIN{OFS="\t"}{if($2>=$col2 && $2<=$col3) {print $a,$col2,$col3,$2}; break; else continue}' > rohit_TSS.txt; done < file1
ベストアンサー1
この作業は、2 つのステップで実行する方が簡単です。
すべてを補助ファイルに入れてソートします。
awk 'FNR>1{print $1, $2, $3, $4 }' file1 file2 | sort -k1 >> file3
awk
その後、すべて一度だけ繰り返します。
awk '{if (NF == 3) {chr=$1; lo=$2; hi=$3} else { if ($1==chr && $2>=lo && $2<=hi) print $1":"lo"-"hi", "$2}}' file3
見てみると...フィールドが3つだけで、より多くの行があるので、どのawk
行から出てくるのかがわかります。file3
file1
file2
if (NF == 3) {chr=$1; lo=$2; hi=$3}
file3
このテストは、あなたがの行(イン)にいるときに適用されますfile1
。その時点から行を見つけるたびに、合計値と現在の染色体をfile1
取得したいと思います。lo
hi
else
そうでなければ、私たちはただ一行になりますfile2
...
if ($1==chr && $2>=lo && $2<=hi) print $1":"lo"-"hi", "$2}
私たちが同じ染色体にあり、関心のある値が$2
以前に覚えた値lo
と限界の間にある場合は、あなたの形式で印刷されます。hi
出力は次のとおりです
chr1:235097868-235098170, 235097869
chr1:235097868-235098170, 235097888
ノート
実際、あなたは最初でawk
唯一のことを忘れることができます。
cat file1 file2 | sort > file3
行全体を並べ替えるので、chr
不可論的でなければなりません。