大容量記録/短絡処理

Question

問題のある記録だけをスキップしたい場合：

awk 'BEGIN { ORS=RS="\n\n" } length <= 100*1000' file

これにより、100,000文字以下のすべてのレコードが印刷されます。

レコードが大きすぎる場合、特定の正の整数で始まるフィールドを削除するには、次の手順を実行します。

awk -v number=149 'BEGIN { ORS=RS="\n\n"; OFS=FS="\n" }
    length <= 100*1000 { print; next }
    {
        # This is a too long record.
        # Re-create it without any fields whose first tab-delimited
        # sub-field is the number in the variable number.

        # Split the record into an array of fields, a.
        nf = split($0,a)

        # Empty the record.
        $0 = ""

        # Go through the fields and add back the ones that we
        # want to the output record.
        for (i = 1; i <= nf; ++i) {
            split(a[i],b,"\t")
            if (b[1] != number) $(NF+1) = a[i]
        }

        # Print the output record.
        print
    }' file

以前と同様に、短いレコードが印刷されます。長いレコードは削除され、最初のタブで区切られたサブフィールドが数字number（ここではコマンドラインで149と指定されている）のすべてのフィールドが削除されます。

大規模なレコードの場合、不要なフィールドなしでレコードが再生成されます。内部ループはタブのフィールドを分割し、タブで区切られた最初のサブフィールドではなくフィールドを追加して出力レコードを再作成しますnumber。

for (i = 1; i <= nf; ++i) {
    split(a[i],b,"\t")
    if (b[1] != number) $(NF+1) = a[i]
}

POSIX仕様は、awk複数文字の値を指定しない場合に発生する状況を公開するため（ほとんどの実装ではこれを正規表現として扱う）、厳密に一貫した実装の代わりにRS使用できます。これにより、データの複数の空行が空のレコードを分離しなくなります。RS=""; ORS="\n\n"ORS=RS="\n\n"awk

Answer 1