大容量ファイルループで「分割」を使用するスクリプト

Question

NTFS ファイルシステムのパフォーマンスに関する追加の注意

この回答の後半を作成した後、OPはスクリプトがNTFSディスク上で実行されていることを指摘し、これが問題の一部である可能性があると疑いました。

これは驚くべきことではありません。 NTFSには、特に多くの小さなファイル処理に関連するパフォーマンスの問題があります。私たちは、各入力ファイルに対して何百万もの小さなファイルを生成しています。

したがって、低いNTFSパフォーマンスはパフォーマンスの低下に関する別の説明であり、極端なメモリ使用量は依然としてmmap（）に関連しているようです。

NTFSのパフォーマンスが悪い。
パフォーマンスを向上させるためのNTFSファイルシステムの構成

mmap() の広範な使用によって記述されるメモリの問題

スクリプトのメモリ問題は、split「分割」でのmmapの使用に関連しているようです。

strace各出力ファイルに対して、次の呼び出しが表示されます。

28892 open("xx02", O_WRONLY|O_CREAT|O_TRUNC, 0666) = 3
28892 fstat(3, {st_mode=S_IFREG|0664, st_size=0, ...}) = 0
28892 mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0x7f821582f000
28892 write(3, "sometext\n", 30) = 30
28892 close(3)                          = 0
28892 munmap(0x7f821582f000, 4096)      = 0

例では、処理するファイルのおおよその見積もりを提供するために、
入力ファイルが300 MBで、出力ファイルが100 Bであるとします。

これにより、約3,000,000個のファイルに書き込むことができます。一度に1つの記事を作成します。しかし、我々はmmap()。

これを念頭に置いて、私たちはタッチ約12GBメモリ（1）1つの入力ファイルに対して（ただし、すべてのファイルを同時に使用するわけではありません）。 300万個のファイルと12GBはカーネルにいくつかのタスクを提供できるようです。

基本的にはsplitただそうだと思います。この職業には適していません、使用するため地図()。
他のケースでは、これは良いことです。
しかし、このような極端な入力状況では、メモリ管理が深刻に混乱し、クリーンアップに時間がかかることがあります。 (2)

_{（2）実際には同時にメモリをあまり使用しませんが、むしろ短時間で多くの小さなファイルをmmapします。}

_{（1）またはアドレス空間のみ？}

Answer 1