使用join

Question

これにより、GNUを使用してコメントに記載されている出力が提供されますawk。

gawk 'FNR==1{names[c++]=FILENAME}
      FNR>4{ lines[$1] = "x"lines[$1] ? lines[$1]"\t"$4 : $4; } 
      END{ 
            for(i=0;i<=c;i++){
                printf "\t%s",names[i]
            } 
            printf "\n"; 
            for(i in lines){ 
                print i,lines[i]
            }
        }' *Gene.out.tab
    SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab
AT1G01010   301 151
AT1G01020   622 683
AT1G01030   149 63
AT1G03987   0   0

そして、すべてを視覚的に見やすく整列させるには、以下を渡しますcolumn。

$ gawk 'FNR==1{names[c++]=FILENAME}FNR>4{ lines[$1] = "x"lines[$1] ? lines[$1]"\t"$4 : $4; } END{ for(i=0;i<=c;i++){printf "\t%s",names[i];} printf "\n"; for(i in lines){ print i,lines[i]}}' *Gene.out.tab | column -s$'\t' -t
            SRR3384742.Gene.out.tab  SRR3384743.Gene.out.tab
AT1G01010   301                      151
AT1G01020   622                      683
AT1G01030   149                      63
AT1G03987   0                        0

FNR現在処理中のファイルの行番号を常に保持する特別なawk変数。現在処理中のファイルの名前を保持するFILENAMEGNU特殊変数。awk

FNR==1{names[c++]=FILENAME}：これが入力ファイルの最初の行である場合、この変数を値がfilenameの配列のインデックスとして使用し、cその値をyb 1（）だけ増やします。すべてのファイルが処理された後は、最初のファイル名、2番目のファイル名などになります。namesc++files[0]files[1]
FNR>4{ lines[$1] = "x"lines[$1] ? lines[$1]"\t"$4 : $4; }：これは次のとおりです。
```
if(FNR>4){ 
      if("x"lines[$1]){
       lines[$1]"\t"$4
      else{
          lines[$1] = $4
      }
  }
```
現在の入力ファイルの行番号が5つ以上の場合は、最初のフィールドに配列の関連値があることを確認してくださいlines。使用するかどうかを確認する"x"lines[$i]理由は、テストが偽であるが真であるため、lines[$1]これを防ぐことができるからです。したがって、値がある場合はタブと現在行の2番目のフィールドをここに追加し、値がない場合は現在行の4番目のフィールドに設定します。0x0x
END{ ... }：すべての入力が処理された後にこれを実行します。
for(i=0;i<=c;i++){printf "\t%s",names[i]}; printf "\n"; ：namesタブ文字の前に配列の各ファイル名を印刷します。先頭タブがヘッダー行とコンテンツのフィールド数を同じにしておきたいと思います。ファイル名を印刷した後、改行文字を印刷します。
for(i in lines){print i,lines[i]}：配列の各インデックスにlinesインデックス（ID）を印刷し、最初のステップで保存された関連値を印刷します。

限定：すべての出力データをメモリに保存する必要があります。最新のシステムではIDのみを保存し、ファイルごとにIDごとに1つの値しか保存しないため、これは問題ではありません。したがって、かなりまともなシステムでは、ブロックする前に多くの入力を処理できるはずですが、そうでない可能性があります。問題になる。データ量が多くなると問題があるのが事実だ。

Answer 1

これにより、GNUを使用してコメントに記載されている出力が提供されますawk。

gawk 'FNR==1{names[c++]=FILENAME}
      FNR>4{ lines[$1] = "x"lines[$1] ? lines[$1]"\t"$4 : $4; } 
      END{ 
            for(i=0;i<=c;i++){
                printf "\t%s",names[i]
            } 
            printf "\n"; 
            for(i in lines){ 
                print i,lines[i]
            }
        }' *Gene.out.tab
    SRR3384742.Gene.out.tab SRR3384743.Gene.out.tab
AT1G01010   301 151
AT1G01020   622 683
AT1G01030   149 63
AT1G03987   0   0

そして、すべてを視覚的に見やすく整列させるには、以下を渡しますcolumn。

$ gawk 'FNR==1{names[c++]=FILENAME}FNR>4{ lines[$1] = "x"lines[$1] ? lines[$1]"\t"$4 : $4; } END{ for(i=0;i<=c;i++){printf "\t%s",names[i];} printf "\n"; for(i in lines){ print i,lines[i]}}' *Gene.out.tab | column -s$'\t' -t
            SRR3384742.Gene.out.tab  SRR3384743.Gene.out.tab
AT1G01010   301                      151
AT1G01020   622                      683
AT1G01030   149                      63
AT1G03987   0                        0

FNR現在処理中のファイルの行番号を常に保持する特別なawk変数。現在処理中のファイルの名前を保持するFILENAMEGNU特殊変数。awk

FNR==1{names[c++]=FILENAME}：これが入力ファイルの最初の行である場合、この変数を値がfilenameの配列のインデックスとして使用し、cその値をyb 1（）だけ増やします。すべてのファイルが処理された後は、最初のファイル名、2番目のファイル名などになります。namesc++files[0]files[1]
FNR>4{ lines[$1] = "x"lines[$1] ? lines[$1]"\t"$4 : $4; }：これは次のとおりです。
```
if(FNR>4){ 
      if("x"lines[$1]){
       lines[$1]"\t"$4
      else{
          lines[$1] = $4
      }
  }
```
現在の入力ファイルの行番号が5つ以上の場合は、最初のフィールドに配列の関連値があることを確認してくださいlines。使用するかどうかを確認する"x"lines[$i]理由は、テストが偽であるが真であるため、lines[$1]これを防ぐことができるからです。したがって、値がある場合はタブと現在行の2番目のフィールドをここに追加し、値がない場合は現在行の4番目のフィールドに設定します。0x0x
END{ ... }：すべての入力が処理された後にこれを実行します。
for(i=0;i<=c;i++){printf "\t%s",names[i]}; printf "\n"; ：namesタブ文字の前に配列の各ファイル名を印刷します。先頭タブがヘッダー行とコンテンツのフィールド数を同じにしておきたいと思います。ファイル名を印刷した後、改行文字を印刷します。
for(i in lines){print i,lines[i]}：配列の各インデックスにlinesインデックス（ID）を印刷し、最初のステップで保存された関連値を印刷します。

限定：すべての出力データをメモリに保存する必要があります。最新のシステムではIDのみを保存し、ファイルごとにIDごとに1つの値しか保存しないため、これは問題ではありません。したがって、かなりまともなシステムでは、ブロックする前に多くの入力を処理できるはずですが、そうでない可能性があります。問題になる。データ量が多くなると問題があるのが事実だ。

使用join

ベストアンサー1

おすすめ記事