Bash：重複した項目を検出して番号を付けるネストされたwhileループ

Question

awk私は基本的なソリューションを思いついた。

ヘッダーファイルには特定のIDがないため、一意のヘッダーを含むヘッダーファイルを最初に読み取り、次に実際のシーケンスファイルを2回読み取る「2ファイル2段階」アプローチを実行します。ファイルが印刷されます。複数回出現するヘッダには、明確にするために番号が付けられます。

awk 'NR==FNR{tot[$0]=0;next}
     !final {if ($0 in tot) {tot[$0]++};next}
      final && ($0 in tot) {if (tot[$0]>1) $0=$0 (++cnt[$0])}1' uniqueheaders.txt sequence.txt final="1" sequence.txt

NRグローバルラインカウンタがファイルごとのラインカウンタと同じ場合、処理するFNR最初のファイル（ここuniqueheaders.txt）にあることがわかります。次に、配列にタイトルを「ログ」すると、tot後でタイトルが表示される合計回数が保存されます。
どのように多くのヘッダー行とシーケンスファイル行があるかわからないため、行カウンター変数は、どのファイルにあるかを識別するのに役立ちません（少なくとも特定の実装awkに依存したくない場合）。。1一度だけ表示されるヘッダーにaを追加することを抑制するには、「シーケンスファイル」（例入力）を2回処理する必要があるため（参照このQ&Aは議論のためのものです）、パラメータとして2回宣言しますが、awk2番目のパスのフラグを設定します。final
シーケンスファイルの最初のステップ（finalまだ設定されていない）では、ヘッダーを含む行のみを調べて（つまり、$0行全体が配列のインデックスにあるtot）、合計発生回数カウンタを増やします。
シーケンスファイルの2番目のパス（現在final設定されている1）では、通常はすべての行を印刷しますが、ヘッダー行である行（配列の$0インデックスとしても表示されますtot）はカウンタ（配列に格納されています）cntを追加します。私たちはこのヘッダー（）に重複があることを知っていますtot[$0]>1。

ノート特定の基準（空白行で区切られたすべての遺伝子配列）に基づいてシーケンスファイルのヘッダー行を選択できる場合は、外部ファイルは必要なく、単一の呼び出しuniqueheaders.txtですべての操作を実行できます。awk

Answer 1

awk私は基本的なソリューションを思いついた。

ヘッダーファイルには特定のIDがないため、一意のヘッダーを含むヘッダーファイルを最初に読み取り、次に実際のシーケンスファイルを2回読み取る「2ファイル2段階」アプローチを実行します。ファイルが印刷されます。複数回出現するヘッダには、明確にするために番号が付けられます。

awk 'NR==FNR{tot[$0]=0;next}
     !final {if ($0 in tot) {tot[$0]++};next}
      final && ($0 in tot) {if (tot[$0]>1) $0=$0 (++cnt[$0])}1' uniqueheaders.txt sequence.txt final="1" sequence.txt

NRグローバルラインカウンタがファイルごとのラインカウンタと同じ場合、処理するFNR最初のファイル（ここuniqueheaders.txt）にあることがわかります。次に、配列にタイトルを「ログ」すると、tot後でタイトルが表示される合計回数が保存されます。
どのように多くのヘッダー行とシーケンスファイル行があるかわからないため、行カウンター変数は、どのファイルにあるかを識別するのに役立ちません（少なくとも特定の実装awkに依存したくない場合）。。1一度だけ表示されるヘッダーにaを追加することを抑制するには、「シーケンスファイル」（例入力）を2回処理する必要があるため（参照このQ&Aは議論のためのものです）、パラメータとして2回宣言しますが、awk2番目のパスのフラグを設定します。final
シーケンスファイルの最初のステップ（finalまだ設定されていない）では、ヘッダーを含む行のみを調べて（つまり、$0行全体が配列のインデックスにあるtot）、合計発生回数カウンタを増やします。
シーケンスファイルの2番目のパス（現在final設定されている1）では、通常はすべての行を印刷しますが、ヘッダー行である行（配列の$0インデックスとしても表示されますtot）はカウンタ（配列に格納されています）cntを追加します。私たちはこのヘッダー（）に重複があることを知っていますtot[$0]>1。

ノート特定の基準（空白行で区切られたすべての遺伝子配列）に基づいてシーケンスファイルのヘッダー行を選択できる場合は、外部ファイルは必要なく、単一の呼び出しuniqueheaders.txtですべての操作を実行できます。awk

Bash：重複した項目を検出して番号を付けるネストされたwhileループ

ベストアンサー1

おすすめ記事