ディレクトリ内のすべてのcsvファイルを繰り返し、列の範囲を選択し、単一のcsvにマージするにはどうすればよいですか？

Question

すべてのファイルを上書きして後で接続するのではなく、cutすべてのファイルを切り取り、結果を直接出力しますcombined.csv。

リスト自体にそのエントリが含まれていないことを確認する必要がありますcombined.csv。そうしないと、ファイルシステムをいっぱいにする無限ループが発生する可能性があります。

(rm -f combined.csv && set ./*.csv && cut -d, -f1-40 "$@" > combined.csv)

または（GNUxargsまたは互換性があると仮定）：

(
  rm -f combined.csv &&
    set ./*.csv &&
    printf '%s\0' "$@" |
      xargs -r0 cut -d, -f1-40 > combined.csv
)

ファイルリストがcsv大きすぎる場合「パラメータリストが長すぎます」間違い。

最初のファイルを除くすべてのファイルからヘッダーを削除するにはループが必要ですが、それでも各ファイルを内部で編集して後でリンクするよりも、ループの出力をリダイレクトする方が良いでしょう。

(
  rm -f combined.csv && set ./*.csv &&
  {
    cut -d, -f1-40 < "$1"
    shift
    for file do
      tail -n+2 < "$file" | cut -d, -f1-40
    done
  } > combined.csv
)

いずれにしてもtail、cut同様のエントリを使用すると、csvセルに改行文字,や改行文字が含まれていないと仮定します。任意のコンテンツを含むCSVを処理するには、mlrORなどの適切なCSV操作ユーティリティ、またはORおよび対応するcsvモジュールなどのcsvtool適切なプログラミング言語を使用する必要があります。perlpython

Answer 1