ディレクトリとさまざまなサブディレクトリに含まれるテラバイト程度のテキストファイルから重複した行を削除する必要があります。
私はsort -u *.txt> newfile.txtを使って、次から簡単なPythonスクリプトを作成しました。
フォルダ内の複数のファイルから重複した行を削除する:範囲内のファイルのみを確認する
どちらもうまくいかないようです。 sort -u で、ほぼ 100 GB に達するテキストファイルフォルダを処理している間、私のラップトップにメモリが足りません (32 GB)。