AWKを使用して検索して置き換えますが、複数の列と区切り文字を持つファイルでは、

Question

配列の配列にGNU awkを使用する：

$ cat tst.awk
NR==FNR {
    genes_annots[$1][$3]
    next
}
{
    delete annots
    for ( i=2; i<=NF; i++ ) {
        gene = $i
        if ( gene in genes_annots ) {
            for ( annot in genes_annots[gene] ) {
                annots[annot]
            }
        }
    }
    printf "%s", $1
    for (annot in annots) {
        printf "%s%s", OFS, annot
    }
    print ""
}

$ awk -f tst.awk file2 FS='[, ]+' file1
OG0000008 PF01509 PF16207 PF13923 PF04845
OG0000009 PF00250 PF02779 PF00379 PF04949 PF00456 PF02780
OG0000010 PF08704 PF04949 PF00400

上記の方法は、同じ注釈を持つ2つの独立した遺伝子がある場合にも機能します。例えば、遺伝子Tni22G01900およびBANYX1.2.t00861の両方に注釈PF04949がある。

$ cat file3
OG0000099,Tni22G01900, BANYX1.2.t00861

$ awk -f tst.awk file2 FS='[, ]+' file3
OG0000099 PF08704 PF04949

上記では、コメントがその行内にすべて存在し、一意の出力の各行に表示されるコメントの順序は重要ではないと仮定しました。

Answer 1

配列の配列にGNU awkを使用する：

$ cat tst.awk
NR==FNR {
    genes_annots[$1][$3]
    next
}
{
    delete annots
    for ( i=2; i<=NF; i++ ) {
        gene = $i
        if ( gene in genes_annots ) {
            for ( annot in genes_annots[gene] ) {
                annots[annot]
            }
        }
    }
    printf "%s", $1
    for (annot in annots) {
        printf "%s%s", OFS, annot
    }
    print ""
}

$ awk -f tst.awk file2 FS='[, ]+' file1
OG0000008 PF01509 PF16207 PF13923 PF04845
OG0000009 PF00250 PF02779 PF00379 PF04949 PF00456 PF02780
OG0000010 PF08704 PF04949 PF00400

上記の方法は、同じ注釈を持つ2つの独立した遺伝子がある場合にも機能します。例えば、遺伝子Tni22G01900およびBANYX1.2.t00861の両方に注釈PF04949がある。

$ cat file3
OG0000099,Tni22G01900, BANYX1.2.t00861

$ awk -f tst.awk file2 FS='[, ]+' file3
OG0000099 PF08704 PF04949

上記では、コメントがその行内にすべて存在し、一意の出力の各行に表示されるコメントの順序は重要ではないと仮定しました。

AWKを使用して検索して置き換えますが、複数の列と区切り文字を持つファイルでは、

ベストアンサー1

おすすめ記事