ディレクトリとすべての後続のサブディレクトリにある1TBのデータから重複行を削除する方法は?

ディレクトリとすべての後続のサブディレクトリにある1TBのデータから重複行を削除する方法は?

ディレクトリとさまざまなサブディレクトリに含まれるテラバイト程度のテキストファイルから重複した行を削除する必要があります。

私はsort -u *.txt> newfile.txtを使って、次から簡単なPythonスクリプトを作成しました。

フォルダ内の複数のファイルから重複した行を削除する:範囲内のファイルのみを確認する

どちらもうまくいかないようです。 sort -u で、ほぼ 100 GB に達するテキストファイルフォルダを処理している間、私のラップトップにメモリが足りません (32 GB)。

ベストアンサー1

おすすめ記事