Unix - Sedコマンド関連

Question

行全体の代わりに行内の列を使用するには、またはawkよりperlも優れたツールですsed。

また、引用符を含むフィールド（コンマを含む）を処理する必要があるため、これを使用する方が良いですperl。テキスト::CSVこのようなCSVファイルを解析するモジュールです。を使用してこれを実行できますが、awkフィールド内の引用符とコンマを処理するには、独自のパーサーを作成する必要があります。

Debianまたは同様のものを実行している場合apt install libtext-csv-perl。他のディストリビューションもパッケージ化できます。それ以外の場合は、を使用してインストールしてくださいcpan。

以下は、詳細を取得するためにText::CSV実行できるタスクの非常に簡単な例です。man Text::CSV

#!/usr/bin/perl

use strict;

use Text::CSV qw(csv);

my ($filename, $search, $year) = @ARGV;

my $csv = Text::CSV->new({allow_whitespace => 1,
                          allow_loose_quotes => 1,
                          quote_space => 0,
                         });

open(my $in, "<", $filename) or die "couldn't open $filename: $!";

my @headers = $csv->header($in);
pop @headers;                   # discard last field from @headers
$csv->say(*STDOUT, \@headers);  # print the headers

while (my $row = $csv->getline($in)) {

  # note: perl arrays start from zero, not one. So $row->[0] is
  # the first field.  $row->[3] is the fourth.

  if ($row->[0] =~ m/$search/i && $row->[3] == $year) {
    pop @{ $row };  # discard last field (year)
    $csv->say(*STDOUT, $row);
  }

}
close($in);

たとえば、別の名前で保存し、-を使用してシェルスクリプトと同じようにextract.pl実行可能にします。chmod +x extract.pl

私はあなたの質問にサンプル入力や出力を提供していないので、ちょっとしたハットン音を作る必要がありました。

次の入力ファイルが与えられた場合input.csv：

business,description,address,year
"ABC","sells some items","123 Somewhere Street, Somewhere, V1234",2020
"BCD Co.","sells some items","123 Somewhere Street, Somewhere, V1234",2021
"BBB Pty Ltd","sells some items","123 Somewhere Street, Somewhere, V1234",2020
"BXYZ","sells some items","123 Somewhere Street, Somewhere, V1234",2021
"CDE","sells some items","123 Somewhere Street, Somewhere, V1234",2020
"DEF","sells some items","123 Somewhere Street, Somewhere, V1234",2020

次の出力が生成されます。

$ ./extract.pl input.csv '^b' 2021
business,description,address
BCD Co.,sells some items,"123 Somewhere Street, Somewhere, V1234"
BXYZ,sells some items,"123 Somewhere Street, Somewhere, V1234"

つまり、2021年に「B」または「b」で始まるすべてのビジネス名です（正規表現の一致は大文字と小文字を区別しません）。最初の3つのフィールドのみが印刷されます。

出力が必要な場合（つまり、フィールド内にカンマがある場合）は、フィールドのみを参照する方法に注意してください。スペースを含むフィールドも引用するには、スクリプトでそれをquote_space => 0次のように変更しますquote_space => 1（またはスペースを含むフィールドを引用することがデフォルト値であるため、その行を削除しますText::CSV）。

Answer 1