テキストで10回以上表示されるすべての単語を検索

Question

< text tr -cs '[:alnum:]' '[\n*]' |
  awk '++count[$0] == 10' |
  sort

大文字と小文字を無視するには、$0に置き換えます。tolower($0)

それティー翻訳するS文字の順序は次のとおりです。氏補足アル法シリアル番号エリックNエリンス。awk各出現の10回目の出現を印刷します。

気づくGNUシステムでは、trマルチバイト文字が正しく処理されません。。ただし、これらのシステムではgrepGNU拡張機能を使用できます-o。

< text grep -Eo '[[:alnum:]]+' |
  awk '++count[$0] == 10' |
  sort

次のように変更できます。

< text grep -Eo '[^[:punct:][:space:]]+' |
  awk '++count[$0] == 10' |
  sort

両方ではないキャラクターを考えてみてください。指す評価もできません。スペース（またはtr -s '[:punct:][:space:]' '[\n*]'GNU以外のシステム、またはASCIIテキスト全体）戦争と平和のテキスト同じ結果を提供します。

Unicode 結合アクセントは次のように分類されるため、少なくとも GNU システムでは依然として誤った結果が生じる可能性があります。靴まさか東門（アクセント文字は結合されていますが、このテキストには表示されません。）

Answer 1

< text tr -cs '[:alnum:]' '[\n*]' |
  awk '++count[$0] == 10' |
  sort