キーが他のファイルと一致し、条件に基づいてファイルの値を合計します。

Question

$4これを行うには、行1の各キー（）の値を保存する必要があります。以下のスクリプトでは、$1このために呼び出された配列をキーと値として使用します。keys$1$4

また、各実際の行を別の配列に保存する必要があります（lines行番号をキーとして使用し、行全体をその値として使用します）。これが大きい場合は、大量のメモリを消費できることに注意してくださいfile1。しかし、非常に大きくない限り、RAMが多い最新のシステムでは問題にはなりません。大きすぎてRAMに収まらない場合は、配列に保存するのではなく、最初のファイルを再度繰り返すようにスクリプトを変更する必要がありますlines。

linekeys最後に、各行番号に対応するキー（$ 1）も保存する必要があります。行番号をインデックスに、キーを$1値として使用し、そのために呼び出された配列を使用します。しかし、最初のファイルが大きすぎて2番目に処理する必要がある場合は、$1各行を再処理しながらインポートできるため、この配列は必要ありません。技術的には、この配列は必要に応じてブロックからインポートできるため、実際には必要ありませんが、split()簡単ですlines[l]。より単純なコードと潜在的に高速なランタイムのために、より多くのメモリ使用量を交換することです。END{}

awk '# process the first file
     NR==FNR {
       keys[$1] = $4;      # remember the value of $4 for the key ($1)
       lines[FNR] = $0;    # store the entire line
       linekeys[FNR] = $1; # remember the key for that line
       next
     };

     # process any remaining file(s)
     $1 in keys {
       if ($2 < keys[$1]) {
         sum[$1]+=$3
       };
     };

     # All files have been processed, so print the output
     END {
       for (l in lines) {
         print lines[l], sum[linekeys[l]]
       }
     }' file1 file2
NC_000001.11_NM_001005484.2 69270   234 69037 9
NC_000001.11_NM_001005484.2 69511   475 69037 9
NC_000001.11_NM_001005484.2 69761   725 69037 9
NC_000001.11_NM_001385640.1 942155  20  942136 1361

しかし、これを2つのshスクリプトのうちの1つに保持することをお勧めします（thisの"$@"代わりに引数として使用する場合を除き、実行時にコマンドラインで入力行を指定できます（例：awkfile1 file2bash scriptname.sh file1 file2またはとしてawk使用できるように、awkスクリプト（コマンド、一重引用符、およびファイル名の削除）として保存しますawk -f scriptname.awk file1 file2。#!最初行を実行すると、実行時にコマンドラインにインタプリタ名を入力せずに直接実行できるように実行可能にすることもできます。

あるいは、本当に主張している場合は、スクリプト全体を1行に圧縮できます。これを達成するには、ドアの間に必要な場所にセミコロンを残します。しかし、シェルのコマンドラインは、このような短いスクリプトでも編集するのにひどい場所であり、Ctrl-XCtrl-E現在の行やお気に入りのエディタを編集できるbashなどの便利な機能もあるのでお勧めしませんvi。

Answer 1

$4これを行うには、行1の各キー（）の値を保存する必要があります。以下のスクリプトでは、$1このために呼び出された配列をキーと値として使用します。keys$1$4

また、各実際の行を別の配列に保存する必要があります（lines行番号をキーとして使用し、行全体をその値として使用します）。これが大きい場合は、大量のメモリを消費できることに注意してくださいfile1。しかし、非常に大きくない限り、RAMが多い最新のシステムでは問題にはなりません。大きすぎてRAMに収まらない場合は、配列に保存するのではなく、最初のファイルを再度繰り返すようにスクリプトを変更する必要がありますlines。

linekeys最後に、各行番号に対応するキー（$ 1）も保存する必要があります。行番号をインデックスに、キーを$1値として使用し、そのために呼び出された配列を使用します。しかし、最初のファイルが大きすぎて2番目に処理する必要がある場合は、$1各行を再処理しながらインポートできるため、この配列は必要ありません。技術的には、この配列は必要に応じてブロックからインポートできるため、実際には必要ありませんが、split()簡単ですlines[l]。より単純なコードと潜在的に高速なランタイムのために、より多くのメモリ使用量を交換することです。END{}

awk '# process the first file
     NR==FNR {
       keys[$1] = $4;      # remember the value of $4 for the key ($1)
       lines[FNR] = $0;    # store the entire line
       linekeys[FNR] = $1; # remember the key for that line
       next
     };

     # process any remaining file(s)
     $1 in keys {
       if ($2 < keys[$1]) {
         sum[$1]+=$3
       };
     };

     # All files have been processed, so print the output
     END {
       for (l in lines) {
         print lines[l], sum[linekeys[l]]
       }
     }' file1 file2
NC_000001.11_NM_001005484.2 69270   234 69037 9
NC_000001.11_NM_001005484.2 69511   475 69037 9
NC_000001.11_NM_001005484.2 69761   725 69037 9
NC_000001.11_NM_001385640.1 942155  20  942136 1361

しかし、これを2つのshスクリプトのうちの1つに保持することをお勧めします（thisの"$@"代わりに引数として使用する場合を除き、実行時にコマンドラインで入力行を指定できます（例：awkfile1 file2bash scriptname.sh file1 file2またはとしてawk使用できるように、awkスクリプト（コマンド、一重引用符、およびファイル名の削除）として保存しますawk -f scriptname.awk file1 file2。#!最初行を実行すると、実行時にコマンドラインにインタプリタ名を入力せずに直接実行できるように実行可能にすることもできます。

あるいは、本当に主張している場合は、スクリプト全体を1行に圧縮できます。これを達成するには、ドアの間に必要な場所にセミコロンを残します。しかし、シェルのコマンドラインは、このような短いスクリプトでも編集するのにひどい場所であり、Ctrl-XCtrl-E現在の行やお気に入りのエディタを編集できるbashなどの便利な機能もあるのでお勧めしませんvi。

キーが他のファイルと一致し、条件に基づいてファイルの値を合計します。

ベストアンサー1

おすすめ記事