各列の重複項目数の計算

Question

GNU awk foを使用する配列の配列の合計sorted_in：

$ cat tst.awk
BEGIN { FS=OFS="\t" }
NR == 1 {
    numCols = split($0,tags)
    next
}
{
    for ( colNr=1; colNr<=NF; colNr++ ) {
        val = $colNr
        if ( val != "" ) {
            if ( !seen[colNr][val]++ ) {
                ++colRowNrs[colNr]
            }
            rowNr = colRowNrs[colNr]
            numRows = ( rowNr > numRows ? rowNr : numRows )
            rowColVals[rowNr][colNr] = val
            rowColCnts[rowNr][colNr]++
        }
    }
}
END {
    PROCINFO["sorted_in"] = "@val_num_desc"
    for ( colNr in colRowNrs ) {
        tag = tags[colNr]
        printf "%s%s", tag, (colNr<numCols ? OFS : ORS)
    }
    for ( rowNr=1; rowNr<=numRows; rowNr++ ) {
        for ( colNr in colRowNrs ) {
            val = rowColVals[rowNr][colNr]
            cnt = rowColCnts[rowNr][colNr]
            printf "%s%s%s", val, (cnt > 1 ? "("cnt")" : ""), (colNr<numCols ? OFS : ORS)
        }
    }
}

$ awk -f tst.awk file
b       c       a       d       e
11      22      11(2)   56      11(4)
44      56      12      89
56      78(2)   22(2)   91
60(3)   91
91(2)   98
95

上記は、入力内容がタブで区切られていると仮定しています。これが間違っている場合は、質問を編集して明確にしてください。

Answer 1

GNU awk foを使用する配列の配列の合計sorted_in：

$ cat tst.awk
BEGIN { FS=OFS="\t" }
NR == 1 {
    numCols = split($0,tags)
    next
}
{
    for ( colNr=1; colNr<=NF; colNr++ ) {
        val = $colNr
        if ( val != "" ) {
            if ( !seen[colNr][val]++ ) {
                ++colRowNrs[colNr]
            }
            rowNr = colRowNrs[colNr]
            numRows = ( rowNr > numRows ? rowNr : numRows )
            rowColVals[rowNr][colNr] = val
            rowColCnts[rowNr][colNr]++
        }
    }
}
END {
    PROCINFO["sorted_in"] = "@val_num_desc"
    for ( colNr in colRowNrs ) {
        tag = tags[colNr]
        printf "%s%s", tag, (colNr<numCols ? OFS : ORS)
    }
    for ( rowNr=1; rowNr<=numRows; rowNr++ ) {
        for ( colNr in colRowNrs ) {
            val = rowColVals[rowNr][colNr]
            cnt = rowColCnts[rowNr][colNr]
            printf "%s%s%s", val, (cnt > 1 ? "("cnt")" : ""), (colNr<numCols ? OFS : ORS)
        }
    }
}

$ awk -f tst.awk file
b       c       a       d       e
11      22      11(2)   56      11(4)
44      56      12      89
56      78(2)   22(2)   91
60(3)   91
91(2)   98
95

上記は、入力内容がタブで区切られていると仮定しています。これが間違っている場合は、質問を編集して明確にしてください。

各列の重複項目数の計算

ベストアンサー1

おすすめ記事