awk は for ループでファイルの代わりにファイル名を使用します。

Question

シェルスクリプトを作成するときは、検証済みの変数を最初に指定し、最後にファイル名を指定することをお勧めします。これにより、指定されたファイル数を変更できます。あなたの場合は、列番号、パターンを含むファイル、および処理する2つ（またはそれ以上）のファイル名があります。ここで Bash スクリプトを起動してください

#!/bin/bash
if [ $# -lt 2 ] || [ "$1" = "-h" ] || [ "$1" = "--help" ]; then
    echo ""
    echo "Usage: $0 [ -h | --help ]"
    echo "       $0 COLUMN PATTERNFILE [ FILE(s) ... ]"
    echo ""
    exit 0
fi

上記のセクションでは、if古いPOSIXシェル形式を使用し、ほとんどdashの古いシェルだけでなく他のPOSIXシェルでも機能しますsh。目的は、ユーザーがコマンドライン引数を指定しない場合、-hまたは指定した場合のみ、スクリプトが--help短いヘルプテキストのみを印刷することです。

ところで、ヘルプテキストを拡張する必要があります。作成した内容を忘れてから2〜3ヶ月後にヘルプテキストの目的を理解する方が簡単です。（このようなことはいつも私に起こり、私はそのようなことを経験しました。場所このようなスクリプトを使用するので、このアプローチは少し努力する価値があると思います。 )

次に、必要な引数（上記の1つのみ）を抽出して、コマンドラインで指定されたすべてのファイル名を参照するためにshift使用できるように取り出します。"$@"

column=$1
patternfile="$2"
shift 2

明示的に必要でない場合でも、シェルで拡張したい項目の周りに二重引用符を入れるのが好きです。私がシェルスクリプトで経験している実際の問題の多くは、次の理由からです。忘れる必要に応じて参照拡張を参照してください。この方法は覚えやすく、「二重引用符は実際には必要ありません」という迷惑な鼻を除いて、何の害もありません。

awkそれからそれを使って入力ファイルを処理しましょう。

awk -v column=$column \
  'BEGIN {
       RS = "[\t\v\f ]*(\r\n|\n\r|\r|\n|)[\t\v\f ]*"
       FS = "[\t\v\f ]*;[\t\v\f ]*"
   }

上記の最初の行の終わりにあるバックスラッシュは、単にコマンドが次の行に続くことをシェルに伝えます。また、終了する一重引用符がないため、'下の行は実際に私たちが提供したコマンドライン文字列引数の連続ですawk。

awkのルールは、BEGINファイルが処理される前に実行されます。上記はRSレコード区切り文字を改行規則として設定し、各行の先頭または末尾のスペースを含みます。同様に、フィールド区切り文字はセミコロンですが、その周囲にスペースが含まれます。したがって、空白のない最初のフィールドと2番目のフィールドにはa ; b2つのフィールドがあります。ab

どの入力ファイルが処理されているかを追跡するには、次のイディオムを使用します。

    FNR==1 { ++filenum }

単に私たちが処理する各入力ファイルの最初のレコードに対して変数を増やすという意味であればfilenum。初期化されていない変数を増やすことは、ゼロを増やすのと同じであるため、1最初の入力ファイルを取得する式です。

最初の入力ファイル（パターンファイル）の各行の内容を覚えておきたいです。

    filenum==1 { pattern[$0] }

awk 配列は連想配列なので、既知のパターンを維持するために連想配列を使用できます。上記では、興味深いawk機能を利点として使用しました。まだ存在しない連想配列エントリにアクセスしようとすると、awkはそのエントリを生成します！

残りのファイルについては、フィールド$column（awk変数のawkスクリプトレットに提供されているcolumn）が最初のファイルに表示されているパターンと（正確に）一致することを確認し、そうであればレコード全体を印刷します。

    filenum > 1 && ($column in pattern) { printf "%s\n", $0 }

$column上記はシェルスクリプトとは異なる意味を持ちます。これにはcolumn変数があり、$column現在のレコードの '番目のフィールド値に展開されます（ただし、ゼロ列はレコード全体です）。column構文は、キーが含まれていることをfoo in array確認するために使用されるawkismです。したがって、要約すると、2番目と追加の入力ファイルの場合、最初のフィールド値が最初の入力ファイルにリストされている場合は、そのレコードが印刷されます。標準出力として。arrayfoocolumn

まだコマンドライン引数文字列にあるので、単一引用awk符文字列を閉じる必要があります。また、ファイル名を指定したいと思います。

    ' "$patternfile" "$@"

このawkスクリプトが完了しました。

Answer 1