CSVデータを複数の個別ファイルにフィルタリング

Question

データが次のようになるとします。シンプルCSVデータ、つまりフィールドに区切り文字または改行が含まれていません。

awk -F ';' '
    {
        print > "file" $2    ".csv"
        print > "file" $2 $6 ".csv"
    }' file1.csv

これにより、各行が2回印刷されます。一度は2番目のフィールド値としてのみ指定されたファイルに、1回は2番目と6番目のフィールド値の組み合わせで指定されたファイルに印刷されます。質問のテキストによると、各出力ファイル名には文字列プレフィックスが付き、fileサフィックスが付いています。.csv

ファイル名に使用される2つのフィールドの値は検証されません。

4番目のフィールドに国名をマージするには：

awk -F ';' '
    {
        print > "file_" $2 "-" $4        ".csv"
        print > "file_" $2 "-" $4 "_" $6 ".csv"
    }' file1.csv

与えられたデータに対して次のファイルが生成されます。

file_AD-Andorra.csv
file_AD-Andorra_type_1.csv
file_AD-Andorra_type_2.csv
file_NL-Netherlands.csv
file_NL-Netherlands_type_2.csv
file_US-United States.csv
file_US-United States_type_2.csv

上記のコードはGNUを使用しているシステムでうまく機能しますawk。他のawk実装では、同時に書き込むためにあまりにも多くのファイルを開いたままにすると問題が発生する可能性があります。これらのawk実装ではよりスマートでなければならず、ファイルに書き込んだ後はファイルを閉じることを覚えておく必要があります。ファイルが閉じられたら、>>次にファイルにデータを書き込むときに印刷する必要があります。それ以外の場合、ファイルは切り捨てられます。

awk -F ';' '
    function do_print(name) {
        if (seen[name] == 1) print >>name  # append to file
        else                 print  >name  # first write, truncate file
        close(name)
        seen[name] = 1
    }
    {
        do_print("file_" $2 "-" $4        ".csv")
        do_print("file_" $2 "-" $4 "_" $6 ".csv")
    }' file1.csv

awkこれにより、式を使用できないOpenBSDでもコードが実行されますprint >。

追加（面白い）：awkコードからいくつかの統計を出力するようにします。

awk -F ';' '
    function do_print(name) {
        if (seen[name] > 0) print >>name  # append to file
        else                print  >name  # first write, truncate file
        close(name)
        seen[name]++
    }
    {
        do_print("file_" $2 "-" $4        ".csv")
        do_print("file_" $2 "-" $4 "_" $6 ".csv")
    }
    END {
        for (name in seen)
            printf "Wrote %d lines to \"%s\"\n", seen[name], name >"/dev/stderr"
    }' file1.csv

処理が終了すると、エラーストリームにいくつかの統計が記録されます。与えられたデータについて：

Wrote 1 lines to "file_NL-Netherlands.csv"
Wrote 1 lines to "file_US-United States_type_2.csv"
Wrote 1 lines to "file_AD-Andorra_type_1.csv"
Wrote 2 lines to "file_AD-Andorra.csv"
Wrote 1 lines to "file_NL-Netherlands_type_2.csv"
Wrote 1 lines to "file_US-United States.csv"
Wrote 1 lines to "file_AD-Andorra_type_2.csv"

Answer 1