最も一般的に使用される単語のリストを作成する最も簡単な方法は何ですか？

2024-06-25 • tag-icon

text-processing

小説、ノンフィクション、新聞記事などを含むテキストファイルがたくさんあるとしましょう。 (特定言語のテキストのランダムな例)

最も一般的な単語が最初に含まれている特定の単語の頻度リストが必要です。

このためにCコードを書くことができますが、より速い方法がある場合は知りたいです。（より高速なのは、実行時間ではなくエンコード時間を意味します。）

より速いコーディング時間のために今成功してみた方法は次のとおりです。

printf '%s\n' $(cat *.txt) | sort | uniq -c | sort -gr | less

おすすめ記事