IDグループ（順列/組み合わせ）を見つけるためのより良いソリューション

Question

これにはより多くのプログラミングが必要ですが、ファイルを1行ずつ読み込み、各行の組み合わせを形成し、ハッシュテーブルでその組み合わせの発生回数を計算してこれを行います。

組み合わせを構成する部分は、ライブラリを活用する必要がある部分です。

Perlが救出に来ます。アルゴリズム::組み合わせ組み合わせをリストする既製の機能があります。例を見ると、このようなものを簡単に作成できるようです。これは2つの組み合わせのみを計算するので、自由に改善してください。

perl -MAlgorithm::Combinatorics=combinations -lane '
   $i = combinations([sort @F], 2); 
   while ($x = $i->next) { $count{join "-", @$x}++ }
   END {printf "%s: %d\n", $_, $count{$_} foreach keys %count  } 
   '  < ids > counts | sort -nk2 | tail -3
1010-1020: 3
1001-1010: 4
1004-1010: 4

各行の数値の順序は重要ではないと仮定して入力をソートしました。（要素の順序が維持されていると仮定しているため、combinations結果に並べ替えられていない重複項目はありません。）例の数値によれば、毎秒30,000行が処理されます。

Answer 1

これにはより多くのプログラミングが必要ですが、ファイルを1行ずつ読み込み、各行の組み合わせを形成し、ハッシュテーブルでその組み合わせの発生回数を計算してこれを行います。

組み合わせを構成する部分は、ライブラリを活用する必要がある部分です。

Perlが救出に来ます。アルゴリズム::組み合わせ組み合わせをリストする既製の機能があります。例を見ると、このようなものを簡単に作成できるようです。これは2つの組み合わせのみを計算するので、自由に改善してください。

perl -MAlgorithm::Combinatorics=combinations -lane '
   $i = combinations([sort @F], 2); 
   while ($x = $i->next) { $count{join "-", @$x}++ }
   END {printf "%s: %d\n", $_, $count{$_} foreach keys %count  } 
   '  < ids > counts | sort -nk2 | tail -3
1010-1020: 3
1001-1010: 4
1004-1010: 4

各行の数値の順序は重要ではないと仮定して入力をソートしました。（要素の順序が維持されていると仮定しているため、combinations結果に並べ替えられていない重複項目はありません。）例の数値によれば、毎秒30,000行が処理されます。

IDグループ（順列/組み合わせ）を見つけるためのより良いソリューション

ベストアンサー1

おすすめ記事