ext4ファイルシステムのファイルは継続的な時間検索を可能にしますか？

Question

ファイルがディスクから断片化されていない可能性があります。しかし、時間が厳しく一定であれば、それは重要ではないかもしれません。

ext2とext3はレベル1〜4のツリーにデータブロックの位置を保存するため、クエリは一定の時間にすることはできません。さらに、ツリーのブロックは原則としてファイルシステムの任意の場所に配置できるため、一部のディスク検索が必要になる場合があります。

ext4 は、複数の連続したデータブロックを記述する範囲ツリーを格納します。したがって、ファイルに範囲が1つしかないことがわかっている場合、検索時間は一定です。ただし、断片化されている場合（または128MiBより大きいまたは複数の範囲が必要な場合）はそうではありません。

（源泉：https://www.kernel.org/doc/html/latest/filesystems/ext4/dynamic.html#the-contents-of-inode-i-block)

探す方が気になるかもしれませんが、十分速い、もしそうであれば一定時間。とにかくツリーが深すぎないため、これはより簡単な宛先であり、同じファイルに繰り返しアクセスするとすべてのメモリにすばやくロードされ、ディスク検索が削除されます（SSDではそうではありません）。、しかしとにかく）。また、アクセスごとのシステムコールオーバーヘッドがありますが、各読み取り/書き込み前に検索を実行すると3倍になります。しかし、私の考えには、この問題を軽減するためのより進化したシステムコールがあると思います。

FATファイルシステムは接続のリストです。次のディスクセクタが何であるかを知るには、ディスクセクタを読む必要があります。これは、ファイル内の9,000,000バイトを見つけるには、最初の8,999,999バイトからすべてのディスクセクタを読み取る必要があることを意味します。例えば、ナビゲーション時間は、ナビゲーションの「深さ」に従って直線的に拡張される。

FATファイルシステムには、リンクリストを形成するブロックポインタテーブル（FATテーブル）があります。データブロック自体ではありません。したがって、たとえば、ブロックサイズが4kBの場合、9000000 / 4096〜= 2000個のポインタのみを読み取る必要があり、これは数kBの価値があります。ただし、それはリンクされたリストであり、これを繰り返すには、ルックアップ位置に比例する多くの手順が必要です（fsドライバにこれを減らす賢明な機能がない場合）。ただし、FATテーブルは連続的であり、メモリ内にある可能性があるため、ディスク検索は必要ありません。

ここで一般的な値は、データポイント当たり10KB、大容量ファイルあたりデータポイント10,000個、大容量ファイルの場合は約100MBです。

非常に高速なディープラーニングモデルが毎秒10,000のデータポイントを抽出できるとしましょう。ここでは、各データポイントは約10KBであり、大容量ファイルからランダムに抽出されます。

100MBファイルはメモリ全体に簡単に収まり（複数回）、それを維持すると検索のシステムコールオーバーヘッドも削除されます。読むだけでそれがすべてです。

書き込みを行っても特別な注意なしに、すべての書き込み操作がすぐに~~ディスク~~フラッシュに到達するわけではないため、プロセス全体が遅くなる可能性があることに注意してください。（少なくともfsync()毎回呼び出す必要があり、ドライブがユーザーをだまさないと信じる必要がありますmmap()）msync()。時々再び。

Answer 1