文書内の各単語の発生数/ヒストグラムを取得します。

文書内の各単語の発生数/ヒストグラムを取得します。

ファイル内の各単語の数を見つける方法は?

テキストパイプラインまたは文書内の各単語のヒストグラムが必要です。

文書を単語リストに分割して、各単語を新しい行に表示させることができました。テキスト文書から直接インポートできる場合は、そこにあるソリューションもお勧めします。

> cat doc.txt 
word
second
third
word
really
> cat doc.txt | ... # then count occurrences of each word \
                      and print in descending order separated by delimiter
word 2
really 1
second 1
third 1

ファイルが1GBのテキストであり、指数関数的なタイムロードを処理できないため、やや効率的でなければなりません。

ベストアンサー1

1つの方法は次のとおりです。

$ sort file | uniq -c | sort -nrk1 | awk '{print $2,$1}'
word 2
third 1
second 1
really 1

おすすめ記事