データをより早くソートする方法

Question

ファイルを読み取るのに十分なメモリがあると仮定すると、試してみることができます。

perl -e 'use List::Util 'shuffle'; @k=shuffle(<>); print @k[0..999]' file.bed

10000回したいので、繰り返しをスクリプトに統合します。シャッフリングインデックス速度を上げるために配列自体の代わりに：

$ time perl -e 'use List::Util 'shuffle'; 
            @l=<>; for $i (1..10000){
               open(my $fh, ">","file.$i.bed"); 
               @r=shuffle(0..$#l); 
               print $fh @l[@r[0..999]]
            }' file.bed

real    1m12.444s
user    1m8.536s
sys     0m3.244s

上記のコードは、37,000行を含むファイルからそれぞれ1,000行の10,000個のファイルを生成します（例ファイルは1,000回繰り返されます）。ご覧のように、私のシステムでは3分少しかかりました。

説明する

use List::Util 'shuffle';：配列をランダム化する機能を提供するPerlモジュールをインポートしますshuffle()。
@l=<>;：<>入力ファイル（）を配列にロードします@l。
for $i (1..10000){}：10,000回実行します。
@r=shuffle(0..$#l); ：$#lは要素の数なので、配列インデックス番号（入力ファイルの行）のランダムなリストです。@l@r@l
open(my $fh, ">","file.$i.bed"); ：書き込むファイルを開きますfile.$i.bed。$i値の範囲は1〜10000です。
print $fh @l[@r[0..999]]：混合配列から最初の1000個のインデックスを取得し、その行（の要素@l）を印刷します。

別の方法はshuf（@frostschutz ありがとう):

$ time for i in {1..10000}; do shuf -n 1000 file.bed > file.$i.abed; done

real    1m9.743s
user    0m23.732s
sys     0m31.764s

Answer 1

ファイルを読み取るのに十分なメモリがあると仮定すると、試してみることができます。

perl -e 'use List::Util 'shuffle'; @k=shuffle(<>); print @k[0..999]' file.bed

10000回したいので、繰り返しをスクリプトに統合します。シャッフリングインデックス速度を上げるために配列自体の代わりに：

$ time perl -e 'use List::Util 'shuffle'; 
            @l=<>; for $i (1..10000){
               open(my $fh, ">","file.$i.bed"); 
               @r=shuffle(0..$#l); 
               print $fh @l[@r[0..999]]
            }' file.bed

real    1m12.444s
user    1m8.536s
sys     0m3.244s

上記のコードは、37,000行を含むファイルからそれぞれ1,000行の10,000個のファイルを生成します（例ファイルは1,000回繰り返されます）。ご覧のように、私のシステムでは3分少しかかりました。

説明する

use List::Util 'shuffle';：配列をランダム化する機能を提供するPerlモジュールをインポートしますshuffle()。
@l=<>;：<>入力ファイル（）を配列にロードします@l。
for $i (1..10000){}：10,000回実行します。
@r=shuffle(0..$#l); ：$#lは要素の数なので、配列インデックス番号（入力ファイルの行）のランダムなリストです。@l@r@l
open(my $fh, ">","file.$i.bed"); ：書き込むファイルを開きますfile.$i.bed。$i値の範囲は1〜10000です。
print $fh @l[@r[0..999]]：混合配列から最初の1000個のインデックスを取得し、その行（の要素@l）を印刷します。

別の方法はshuf（@frostschutz ありがとう):

$ time for i in {1..10000}; do shuf -n 1000 file.bed > file.$i.abed; done

real    1m9.743s
user    0m23.732s
sys     0m31.764s

データをより早くソートする方法

ベストアンサー1

説明する

おすすめ記事