テキストから最も一般的な単語を削除する

テキストから最も一般的な単語を削除する

簡単な質問がありますが、残念ながらどこから始めるべきかわかりません(今始めています)。それで最終的に私がやりたいのは語彙力を増やすことです。ニュース記事で最もよく使われている単語を削除しようとしました。最も一般的な5,000の単語のリストを見つけて保存しました。最も一般的な単語を削除したら、TextSTATで単語数を生成し、単語頻度統計を実行してから、この方法で学習したい単語を選択できます。しかし、保存したい記事で最もよく使われる単語のリストから単語を削除するにはどうすればよいですか?

ベストアンサー1

「news.articles1」、「news.articles2」などのファイルがあり、一般的な単語が「stop.words」というファイルにあるとします。

cat news.articles* | tr -s '[:blank:]' '[\n*]' |
tr '[:upper:]' '[:lower:]' | fgrep -v -f stop.words 

このパイプの出力には一般的な単語を含めないでください。パイプラインの追加手順では、すべての句読点を削除する必要があるかもしれません。たとえば、次のようになります。

tr -d '[:punct:]'

"stop.words"の良い英語版は一般的にあります/usr/share/groff/<version>/eign

おすすめ記事