2つのcsvファイルの複数の列を比較し、1つを別のファイルの列に置き換えます。

Question

この回答は、以下を使用する解決策から始まります。ミラーcsvsql、Millerのソリューションと一緒にMillerを使用し続けます。csvkitその後、使用されるソリューションで終わりますcsvsql。

使用ミラー（mlr）最初に（左）次に名前付きフィールドのデータを結合しますfileA。fileB

account,code,date,type,pc,vol,bs

...その後、account1フィールドの名前を変更しますaccount（フィールドがあるレコードの場合は、account1結合されたレコードのみ）。

次に、フィールドの順序を変更し、出力から不要なフィールドを削除します。

mlr --csv \
    join -f fileA -j account,code,date,type,pc,vol,bs --ul then \
    rename account1,account then \
    cut -o -f account,temp1,code,type,date,subtask,pc,toy,vol,bs,sub fileB

質問のデータ出力を提供します。

account,temp1,code,type,date,subtask,pc,toy,vol,bs,sub
CCCCC,GFHD,ASDF,BS,21122022,STOP,C,CAT,1000,S,MATH
6576,WEQR,TYRE,BS,54122022,OBCD,K,BAT,5000,F,SCSC
7654,GHAD,LOPI,CV,9089022,KGAD,G,BSEE,5908,J,IOYU

両方の入力ファイルのフィールドの順序は関係ありません。

結合に使用できるフィールドがわからない場合は、共通フィールド名を個別に計算できます（残念ながら、Millerは「自然結合」操作を実行できませんが、結合するフィールド名の明示的なリストを提供する必要があります）。

mlr --csv put -q '
    if (NR == 1) {
        for (k in $*) { @f[k] = 1 }
    } else {
       for (k in @f) {
           is_null($[k]) { unset @f[k] }
       }
    }
   end {
       common_fieldnames = joink(@f,",");
       emit common_fieldnames
   }' fileA fileB

与えられたデータに対して次のCSVデータセットを出力します。

common_fieldnames
"account,code,type,date,pc,vol,bs"

到着ただ--csvと結合されているように、ヘッダーがなく、引用符なしのCSV出力を生成するオプションを使用して、カンマ区切りリストを取得します。--headerless-csv-output--quote-none

まったく異なるアプローチcsvsqlはcsvkit自然左結合を実行し、出力を後処理するmlrために使用されます。

csvsql --query 'SELECT * FROM "fileA" NATURAL LEFT JOIN "fileB"' fileA fileB |
mlr --csv \
    put 'is_not_null($account1) { $account = $account1 }' then \
    cut -o -f account,temp1,code,type,date,subtask,pc,toy,vol,bs,sub

これにより、2つのファイル間でどのフィールドが共通であるかを心配する必要がなくなります。

必要に応じて、SQLを使用してすべての操作を実行できます。

csvsql --query '
    CREATE TEMPORARY TABLE tmp AS SELECT * FROM "fileA" NATURAL LEFT JOIN "fileB";
    UPDATE tmp SET account = account1 WHERE account1 IS NOT NULL;
    SELECT account,temp1,code,type,date,subtask,pc,toy,vol,bs,sub FROM tmp;' fileA fileB

Answer 1