Bashスクリプトと大容量ファイル（バグ）：リダイレクトに組み込まれた読み取り機能を使用して入力すると、予期しない結果が発生する

Question

Bashで何らかのバグを見つけました。これは既知のバグであり、修正されました。

プログラムは、ファイルのオフセットを有限サイズの整数型変数として表します。以前はintほとんどすべての人が使用していましたが、intその種類が符号ビットを含めて32ビットに制限されていたため、-2147483648から2147483647までの値を格納できました。今は違うさまざまなアイテムの名前を入力してください。、off_tファイルのオフセットを含みます。

デフォルトでは、off_t32ビットプラットフォームでは32ビットタイプ（最大許容2GB）、64ビットプラットフォームでは64ビットタイプ（最大許容8EB）です。ただし、型をoff_t64ビット幅に切り替えてプログラムに適切な関数実装を呼び出すようにするLARGEFILEオプションを使用してプログラムをコンパイルするのが一般的です。lseek。

32ビットプラットフォームでbashを実行していて、bashバイナリが大容量ファイルサポートでコンパイルされていないようです。通常のファイルから1行を読み取ると、bashは内部バッファを使用して文字を一括して読み取ってパフォーマンスを向上させます。 (詳細はソースコード参照)builtins/read.def）。行が完了すると、bash呼び出しはlseek他のプログラムがファイルの場所に興味を持っている場合に備えて、ファイルオフセットを行末に巻き戻します。関数lseekで呼び出しが発生します。zsyncfclib/sh/zread.c。

ソースコードを詳しく読むことはできませんでしたが、絶対オフセットが負数のときに切り替え点で何かスムーズに起こらないのではないかと推測しています。したがって、bashが2 GBの表示を通過した後にバッファを再充填すると、最終的に誤ったオフセットが読み取られます。

私の結論が間違っていて、あなたのbashが実際に64ビットプラットフォームで実行されているか、大容量ファイルサポートでコンパイルされている場合、これは間違いなくバグです。この事実をディストリビューションに報告するか、上流。

とにかく、シェルはこれらの大容量ファイルを処理するのに適したツールではありません。非常に遅いでしょう。可能であれば sed を使用し、そうでない場合は awk を使用します。

Answer 1

Bashで何らかのバグを見つけました。これは既知のバグであり、修正されました。