一部のGNU coreutilsユーティリティsort
は、shuf
ファイルを有効なサービスシードとして使用します。ファイルサイズは重要ですか?
おすすめの方法、https://www.gnu.org/software/coreutils/manual/html_node/Random-sources.html、opensslベースの方法を使用すると、時間がかなり時間がかかります。
次のように6文字の単語だけを使用するとどうなりますか?これは疑似ランダム性を生成するユーティリティの能力に影響しますか?
shuf -i1-10 --random-source=<(echo durian)
ベストアンサー1
固定文字列をランダムなソースとして提供すると、同じ方法で「ランダム化」されます。毎回。これを証明するためにテストしましょう。
$ printf '%s\n' a b c | shuf --random-source=<(echo durian)
b
c
a
私のシステムでは、上記のコマンドを実行するたびに出力は同じです。 (実装によって異なる場合がありますが、毎回同じでなければならないと思います。) このXKCDによると、ランダム性をハードコードしています。
実際にはランダムではありません。毎回同じ出力を生成します。固定文字列ソースのサイズは重要ではありません。まだ解決済みです。
関連情報が含まれています提供したリンクについてランダムランダムソースの品質:
/dev/urandom
ほとんどの実際の目的には十分ですが、個人データの高い価値や長期的な保護を必要とするアプリケーションには、/dev/random
などの代替データソースが必要な場合があります/dev/arandom
。
後者の2つのオプションは、最初のオプションよりも「よりランダム」です。つまり、ソースがランダムになるほど、シャッフルもランダムになります。したがって、固定文字列は特に堅牢ではありません。
特に、shuf
文字列の長さを固定することに関連しています。たとえば、次は失敗します。
shuf -i1-19 --random-source=<(echo durian)
ただし、出力をに制限すると機能しますが-n16
失敗-n17
します。いくつかの異なる単語と置換をテストしましたが、ソースの文字数を減らすと最大値も-n
低下しました。
source length max -n
7 16
6 13
5 10
4 8
3 5
2 3
1 1
0 0
直接的な関係はわかりませんが、おそらく追加のソート項目(-n
)にはシードとしてより多くのソース文字が必要になるでしょう。ただし、少なくともshuf
この最小しきい値を超えると、各追加文字はランダム性自体に影響を与えません。上記の例では、50番目の文字を変更しても出力は同じです。