列のフィールド区切り文字部分 - Unixの解析中にエラーが発生しました。

列のフィールド区切り文字部分 - Unixの解析中にエラーが発生しました。

CSVファイルを処理する前に、列数を確認したいと思います。問題は、一部のフィールドのテキストに区切り文字(カンマ)が表示され、正しく解析できず、列が多すぎるということです。

たとえば、

~new file: 12345~,~125.5~,,,~ example (45), case (20)~,,

7列

  1. ~new file: 12345~
  2. ~125.5~
  3. ~ example (45), case (20)~

問題は~example (45), case (20)~5番目の列のカンマです。

,;区切り文字をusingに置き換えようとしましたが、何度も繰り返す必要sedがあります。

私は、より最適化された方法で複数のケースを一致させるための一般的な規則が欲しいです。

フィールド参照文字が~あります(a, b, c, d4つのフィールドにも同じですa, ~b, c~, dが、3つのフィールドの1つはb, c)。

サンプル:

~new file: 12345~,~125.5~,,,~ example (45), case (20)~,,
~file (54) ~,,~5.5~,,~ this is a sample.~,,~end, end~
~line 3~,~3.6~,~0.0~,~hello~,~hello, world~,~6.7~,~end of line~

予想出力:

~new file: 12345~;~125.5~;;;~ example (45), case (20)~;;
~file (54) ~;;~5.5~;;~ this is a sample.~;;~end, end~
~line 3~;~3.6~;~0.0~;~hello~;~hello, world~;~6.7~;~end of line~

ベストアンサー1

これは、カンマをフィールド区切り文字として使用し、チルダを引用符として使用するCSVファイルのように見えます。

Perlモジュールが提供するものなど、正しいCSVパーサーを使用してくださいText::CSV

perl -MText::CSV -e 'print scalar(@{Text::CSV->new({quote_char=>"~"})->getline(\*STDIN)})' <file.csv

その後、CSVファイルの最初の行を読み取り、file.csvその中の列数を印刷します。最初の行を読むために引用符を使用する前にチルダ文字であることを理解するパーサーをインスタンス化します。このパーサのメソッドは、getline()指定されたファイルハンドルから行を読み取り、データ配列への参照を返します(解析された各列に1つの項目)。これはprint scalar(...)Perlで配列の長さを印刷する非常に一般的な方法です。

別の方法はCSVキットコマンドラインCSVパーサーツールキット:

csvstat -n -q '~' <file.csv | wc -l

または、均等に長いオプションを使用すると、

csvstat --names --quotechar '~' <file.csv | wc -l

また、入力ファイルの最初の行を読み取り、ヘッダーリスト(CSVファイルの最初の行には通常列ヘッダーが含まれています)を1行に1つずつ返します。wc -l返された行数を計算します。

コマンドcsvstat自体は(なしでwc -l)返されます。

  1: new file: 12345
  2: 125.5
  3:
  4:
  5:  example (45), case (20)
  6:
  7:

後でCSVファイルを解析するときは、次のいずれかの方法を使用するか、最も快適なプログラミング言語に適したパーサーを見つけることをお勧めします。awkそして、sed次の用途に使用できます。シンプルCSVデータですが、この場合、データは注意しないと、これらのツールが扱いにくい一部のCSV形式機能を使用します。

おすすめ記事