ファイルで最も一般的な文字/文字の組み合わせを見つける
単に繰り返される単語を見つけるのではなく(a la:ファイル内のn個の最も一般的な単語を見つける)、繰り返されるすべての文字の組み合わせ文字列を一覧表示する必要があります...
ファイルで最も頻繁に発生するすべての長さの文字/文字の組み合わせを記録したいですか?
例リスト:
Stack
Exchange
Internet
Web
Question
Find
Frequent
Words
Combination
Letters
....
結果として繰り返される文字の組み合わせ:
[a,b,c,d,e,f,g,i,k,l,m,n,o,q,r,s,t,u,w,x]
in
ue
st
tion
ion
on
ti
et
te
ter
...
発生数に応じて結果を一覧表示できます = ボーナス:)
ベストアンサー1
繰り返しモノグラム文字列をすべてリストする必要があります...
...それで、スクリプトから1文字から全行の長さ(サンプルデータが1行に1単語を提供するため、単語の長さ)までの可能なすべての長さを調べました。
文書ssf.mawk
:
#!/usr/bin/mawk -f
BEGIN {
FS=""
}
{
_=tolower($0)
for(i=1;i<=NF;i++)
for(j=i;j<=NF;j++)
print substr(_,i,j-i+1) | "sort|uniq -c|sort -n"
}
サンプル入力を使用して実行出力を低減します。
$ printf '%s\n' Stack Exchange Internet Web Question Find Frequent Words Combination Letters .... | ./ssf.mawk
1 ....
1 ac
1 ack
1 an
1 ang
(((ここでは多くの行が省略されています)))
4 s
5 i
8 n
8 t
10 e
mawk-1.3.3
私はこれをDebian8でテストしましたgawk-4.1.1
。