複数の行と列に基づいてグループ化

Question

最初の質問を解決するには、すべてのUnixシステムのbourne派生シェルでawk + sortを使用して入力を分割する方法は次のとおりです（私はshebangでbashを使用しますが、bashである必要はありません）。

$ cat tst.sh
#!/usr/bin/env bash

awk '{ print $0 ORS $2, $1, $3 }' "${@:--}" |
sort -n -k1,1 -k2,2 |
awk '
    !seen[($1 > $2 ? $1 FS $2 : $2 FS $1)]++ {
        out = ""

        for ( i=1; i<=2; i++ ) {
            if ( $i in map ) {
                out = map[$i]
                break
            }
        }

        if ( out == "" ) {
            out = "person_" (++numPeople)
        }

        for ( i=1; i<=2; i++ ) {
            map[$i] = out
        }

        print >> out
        close(out)
    }
'

次の行を含むように公開した入力例を変更する必要があります。私のコメント分割が機能していることを実際にテストするには、次の手順を実行します。

$ ./tst.sh file

$ head person*
==> person_1 <==
1 2 99
1 6 98
2 3 62

==> person_2 <==
4 4 98
4 5 80
5 5 79

==> person_3 <==
7 8 99
7 9 97
9 10 98

1 2 x上記はと同じであるため、各行の最初の2つのIDの順序は重要ではないと仮定します2 1 x。

Answer 1

最初の質問を解決するには、すべてのUnixシステムのbourne派生シェルでawk + sortを使用して入力を分割する方法は次のとおりです（私はshebangでbashを使用しますが、bashである必要はありません）。

$ cat tst.sh
#!/usr/bin/env bash

awk '{ print $0 ORS $2, $1, $3 }' "${@:--}" |
sort -n -k1,1 -k2,2 |
awk '
    !seen[($1 > $2 ? $1 FS $2 : $2 FS $1)]++ {
        out = ""

        for ( i=1; i<=2; i++ ) {
            if ( $i in map ) {
                out = map[$i]
                break
            }
        }

        if ( out == "" ) {
            out = "person_" (++numPeople)
        }

        for ( i=1; i<=2; i++ ) {
            map[$i] = out
        }

        print >> out
        close(out)
    }
'

次の行を含むように公開した入力例を変更する必要があります。私のコメント分割が機能していることを実際にテストするには、次の手順を実行します。

$ ./tst.sh file

$ head person*
==> person_1 <==
1 2 99
1 6 98
2 3 62

==> person_2 <==
4 4 98
4 5 80
5 5 79

==> person_3 <==
7 8 99
7 9 97
9 10 98

1 2 x上記はと同じであるため、各行の最初の2つのIDの順序は重要ではないと仮定します2 1 x。

複数の行と列に基づいてグループ化

ベストアンサー1

おすすめ記事