サンプルファイルは次のとおりです。 test test test test test
TEST: 15000
abcabc TEST: 15000 testtest test
TEST: 15000
test test test 14000 test test test
TEST: 15000
TEST: 15000
15000が表示されている場合は、テキストが何であれ必要があります。各行に1を追加するだけです。 test test test test test
TEST: 15001
abcabc TEST: 15002 testtest test
TEST: 15003
test test test 14000 test test test
TEST: 15004
TEST: 15005
複数のログファイルにこのような行があります。 ファイル1: Line 203:Caused by :arithmatic overflow exception
Line 204:at com.abc.java
ファイル2: Line 105:Caused by : ???String out of bound exception
Line 206 :at com.def.java
上記のパターンを含むファイルがたくさんあります。これらすべてのファイルで203行と204行の組み合わせの発生回数を計算する方法
8番目と9番目のフィールド/列を生成し、適切な文字を4列と5列の数字にエンコードしたいと思います。コロンで区切られた6つの数字は次のとおりです。A:T:C:G:N:del 注:列6と7の一部の行が空でした。 NAを挿入してこの問題を解決しました。 awk -F'[[:space:]]' '$5 && !$6{ $6="NA" }1'
awk -F'[[:space:]]' '$6 && !$7{ $7="NA" }1'
次に、もう一度タブを使用してファイルを区切ります。sed -e 's/ /\t/g' ファイル.tsv NW_006532398.1 302035 C 0:0:32:0:0:0 42:0:0:0:0:0 KCND2 intergenic_region
NW_006532656.1 289636 C 0:0:28:0:0:0 0:28:0:0:0:0 CNTN1 intron_variant
NW_006532762.1 6396 C 0:54:0:0:0:0 0:0:53:0:0:0 NA intergenic_region
NW_006532762.1 25741 C 0:0:62:0:0:0 0:43:0:0:0:0 NA intergenic_region
NW_006532762.1 32304 T 0:60:0:0:0:0 0:0:49:0:0:0 NA intergenic_region
NW_006532762.1 179065 G 0:0:0:45:0:0 59:0:0:0:0:0 DOCK4 intron_variant
出力 example.tsv NW_006532398.1 302035 C 0:0:32:0:0:0 42:0:0:0:0:0 KCND2 intergenic_region C A
NW_006532656.1 289636 C 0:0:28:0:0:0 0:28:0:0:0:0 CNTN1 intron_variant C T
NW_006532762.1 6396 C 0:54:0:0:0:0 0:0:53:0:0:0 NA intergenic_region T C
NW_006532762.1 25741 C 0:0:62:0:0:0 0:43:0:0:0:0 NA intergenic_region C T
NW_006532762.1 32304 T 0:60:0:0:0:0 0:0:49:0:0:0 NA intergenic_region T C
NW_006532762.1 179065 G 0:0:0:45:0:0 59:0:0:0:0:0 DOCK4 intron_variant G A
どんな助けでも大変感謝します! !