awkと正規表現を使用してテーブルの特定の列で文字列を置き換える方法は？

Question

タブで区切られたデータを想定すると、次のようになります。

$ awk -F '\t' -v OFS='\t' '{ sub("-.*", "", $9); print }' file
DRX154054       ILLUMINA        SINGLE  ChIP-seq        mm_embryonicstemcell_embryonicstemcell  Mus_musculusNone     No      ELL1    NA      NA      NA      ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/DRX/DRX154/DRX154054/
DRX154053       ILLUMINA        SINGLE  ChIP-seq        mm_embryonicstemcell_embryonicstemcell  Mus_musculusNone     No      ELL2    NA      NA      NA      ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/DRX/DRX154/DRX154053/
ERX3608304      ILLUMINA        SINGLE  ChIP-Seq        mm_Unknown_Unknown      Mus_musculus    None    No  EP1      NA      NA      NA      ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/ERX/ERX360/ERX3608304/
DRX154052       ILLUMINA        SINGLE  ChIP-seq        mm_embryonicstemcell_embryonicstemcell  Mus_musculusNone     No      DNMT3A  NA      NA      NA      ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/DRX/DRX154/DRX154052/

これは、9番目のフィールドに置換を適用するだけで、最初のダッシュ文字で始まるフィールドのすべての項目を削除します。その後、変更されたデータを印刷します。

正規表現は-.*最初の項目から始まり-（文字通り「aの-後に0個以上の文字が続きます」）、sub()9番目のフィールドに空の置換文字列を使用すると、そのフィールドのすべてのテキスト一致が削除されます。gsub()入力ラインごとに1つの交換を実行するだけで、ここではそれを使用する必要はありません。

フィールドの1つを変更したので、出力フィールド区切り記号（）がタブに設定されていることも確認する必要があります。OFSそれ以外の場合は、出力にスペースで区切られたフィールドが表示されます。明らかに、ブロックを使用してこれを行うこともできますBEGIN。

awk 'BEGIN { OFS=FS="\t" } { sub("-.*", "", $9); print }' file

Answer 1

タブで区切られたデータを想定すると、次のようになります。

$ awk -F '\t' -v OFS='\t' '{ sub("-.*", "", $9); print }' file
DRX154054       ILLUMINA        SINGLE  ChIP-seq        mm_embryonicstemcell_embryonicstemcell  Mus_musculusNone     No      ELL1    NA      NA      NA      ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/DRX/DRX154/DRX154054/
DRX154053       ILLUMINA        SINGLE  ChIP-seq        mm_embryonicstemcell_embryonicstemcell  Mus_musculusNone     No      ELL2    NA      NA      NA      ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/DRX/DRX154/DRX154053/
ERX3608304      ILLUMINA        SINGLE  ChIP-Seq        mm_Unknown_Unknown      Mus_musculus    None    No  EP1      NA      NA      NA      ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/ERX/ERX360/ERX3608304/
DRX154052       ILLUMINA        SINGLE  ChIP-seq        mm_embryonicstemcell_embryonicstemcell  Mus_musculusNone     No      DNMT3A  NA      NA      NA      ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/DRX/DRX154/DRX154052/

これは、9番目のフィールドに置換を適用するだけで、最初のダッシュ文字で始まるフィールドのすべての項目を削除します。その後、変更されたデータを印刷します。

正規表現は-.*最初の項目から始まり-（文字通り「aの-後に0個以上の文字が続きます」）、sub()9番目のフィールドに空の置換文字列を使用すると、そのフィールドのすべてのテキスト一致が削除されます。gsub()入力ラインごとに1つの交換を実行するだけで、ここではそれを使用する必要はありません。

フィールドの1つを変更したので、出力フィールド区切り記号（）がタブに設定されていることも確認する必要があります。OFSそれ以外の場合は、出力にスペースで区切られたフィールドが表示されます。明らかに、ブロックを使用してこれを行うこともできますBEGIN。

awk 'BEGIN { OFS=FS="\t" } { sub("-.*", "", $9); print }' file

awkと正規表現を使用してテーブルの特定の列で文字列を置き換える方法は？

ベストアンサー1

おすすめ記事