2つのファイル間で順次置換された行のインデックスを抽出します。

Question

入力ファイルのサイズのため、これは私が使用できるまれなケースの1つなので、getline> 10Gの代わりに一度に数行だけメモリに保存します。

$ cat tst.awk
BEGIN {
    OFS = "\t"
    print "Group_Source:Location", "df1.index", "df2.index"
}
NR != FNR { exit }
{ srcLoc = $3 ":" $4 }
srcLoc != prevSrcLoc {
    if ( NR > 1 ) {
        diff()
    }
    prevSrcLoc = srcLoc
}
{
    file1[$1,$2] = FNR - 1
    if ( (getline < ARGV[2]) > 0 ) {
        file2[$1,$2] = FNR - 1
    }
}
END { diff() }

function diff(          idPos) {
    for ( idPos in file1 ) {
        if ( file1[idPos] != file2[idPos] ) {
            print prevSrcLoc, file1[idPos], file2[idPos]
        }
    }
    delete file1
    delete file2
}

$ awk -f tst.awk file1.tsv file2.tsv
Group_Source:Location   df1.index       df2.index
ch1:16  6       4
ch1:16  4       6
ch1:18  10      9
ch1:18  9       10
ch2:53  17      14
ch2:53  15      17
ch2:53  14      15

もっと情報がgetline欲しいなら読んでくださいhttp://awk.freeshell.org/AllAboutGetline。

Identifier上記のコードは、2つのファイル間の4つのフィールドをすべて比較するため、入力中および/または繰り返される場合にも機能します。Position例の入力に示すように、ソースとロケーションの値が2つのファイル間で同じ順序であるとします。

Answer 1

入力ファイルのサイズのため、これは私が使用できるまれなケースの1つなので、getline> 10Gの代わりに一度に数行だけメモリに保存します。

$ cat tst.awk
BEGIN {
    OFS = "\t"
    print "Group_Source:Location", "df1.index", "df2.index"
}
NR != FNR { exit }
{ srcLoc = $3 ":" $4 }
srcLoc != prevSrcLoc {
    if ( NR > 1 ) {
        diff()
    }
    prevSrcLoc = srcLoc
}
{
    file1[$1,$2] = FNR - 1
    if ( (getline < ARGV[2]) > 0 ) {
        file2[$1,$2] = FNR - 1
    }
}
END { diff() }

function diff(          idPos) {
    for ( idPos in file1 ) {
        if ( file1[idPos] != file2[idPos] ) {
            print prevSrcLoc, file1[idPos], file2[idPos]
        }
    }
    delete file1
    delete file2
}

$ awk -f tst.awk file1.tsv file2.tsv
Group_Source:Location   df1.index       df2.index
ch1:16  6       4
ch1:16  4       6
ch1:18  10      9
ch1:18  9       10
ch2:53  17      14
ch2:53  15      17
ch2:53  14      15

もっと情報がgetline欲しいなら読んでくださいhttp://awk.freeshell.org/AllAboutGetline。

Identifier上記のコードは、2つのファイル間の4つのフィールドをすべて比較するため、入力中および/または繰り返される場合にも機能します。Position例の入力に示すように、ソースとロケーションの値が2つのファイル間で同じ順序であるとします。

2つのファイル間で順次置換された行のインデックスを抽出します。

ベストアンサー1

おすすめ記事