ファイルから行番号とパターンを同時に抽出する

Question

awkクリーンアップする前に、元の入力ファイルで次を使用します。

awk '/account number [[:digit:]]+/ { match($0, "account number ([[:digit:]]+)", a); print NR ";" substr($0, a[1, "start"], a[1, "length"]); }' input

その後、口座番号が抽出され、行の先頭に行番号が印刷されます。

1;2345356432
3;8623525534

クリーンアップされたファイルから前処理された数値を抽出するには、次の手順を実行します。

awk '/account number [[:digit:]]+/ { match($0, "account number ([[:digit:]]+)", a); print $1 ";" substr($0, a[1, "start"], a[1, "length"]); }' input

少し分析してみてください。

/account number [[:digit:]]+/「口座番号」の後に数字が一致する行のみを処理していることを確認してください。
match($0, "account number ([[:digit:]]+)", a)パターンを見つけて、一致するグループの位置と長さ（、数）を([[:digit:]]+)配列に保存しますa。
print NR ";" substr($0, a[1, "start"], a[1, "length"])レコード番号の印刷（つまり行番号、複数のFNRファイルを処理する場合に使用）、最初のグループに対応する部分;文字列：開始インデックス、長さ（パディングで埋められる）をa[1, "start"]提供します。a[1, "length"]match

これらすべては、1行につき最大1つのアカウントがあると想定しています。

2番目のバリエーションは$1代わりに印刷しますNR。つまりファイルの最初のフィールドは前処理された行番号です。

Answer 1