2つの大容量ファイルを一致させ、シェルスクリプトから違いを印刷する方法

Question

千万行のファイルの結果は次のとおりです。

seq 10000000 |
  tee a |
  awk 'rand() < 0.05 {print int(1000000 * rand())}; 1' > b

すべて：

diff a b | wc -l

comm -3 <(sort a) <(sort b) | wc -l

(ksh/bash/zsh 構文)

cmp -l a b | wc -l

3年の低価格型PC（Linux駆動）では30秒もかかりませんでした。

diff内容によっては、diff挿入、削除、変更などを検出しなければならないアルゴリズムがデータの配置方法に影響されるため、偏差は大きくなることがありますが、他のアルゴリズムと大きく変わることはありません。

正確に何を試しましたか？

Answer 1

千万行のファイルの結果は次のとおりです。

seq 10000000 |
  tee a |
  awk 'rand() < 0.05 {print int(1000000 * rand())}; 1' > b

すべて：

diff a b | wc -l

comm -3 <(sort a) <(sort b) | wc -l

(ksh/bash/zsh 構文)

cmp -l a b | wc -l

3年の低価格型PC（Linux駆動）では30秒もかかりませんでした。

diff内容によっては、diff挿入、削除、変更などを検出しなければならないアルゴリズムがデータの配置方法に影響されるため、偏差は大きくなることがありますが、他のアルゴリズムと大きく変わることはありません。

正確に何を試しましたか？

おすすめ記事