10GBのテキストファイルが毎日ダウンロードされ、約2億行あり、そのうち約1%が翌日に変更されます。毎日ファイルをバックアップとして保存したいのですが、CPUを使用してディスク容量を節約したいと思います。
編集する
これまでに見つけた最良の方法は、diffファイルを維持しpatch
(@ Simonが提案したように)1月1日に大きなファイルをダウンロードしてから、diff 01jan.txt 02jan.txt > 02jan.diff; rm 02jan.txt
毎月毎月diffを実行して書き換えることです。など。
もっと良い方法がありますか?
ベストアンサー1
これは、Git、Bazaar、Subversionなどのバージョン管理ソフトウェアが行うことです(いくつかのアドオンを含む)。したがって、ワークフローは次のようになります。
- 毎月初めに新しいリポジトリを作成します。
- 新しいファイルをリポジトリにコピーし、毎日変更をコミットします。
- (オプション)先月ストアを削除します。
私のファイルは毎月大幅に変更されず、毎月1つのリポジトリのみを使用します。