最も頻繁に表示される単語のペアを探す

最も頻繁に表示される単語のペアを探す

私はそれぞれ本の1枚を含む10のテキストファイルを持っており、1行で最も頻繁に表示される単語のペアを探したいと思います。つまり、

第1章:

hello world good boy green sun

good green boy sun world hello

第2章:

第3章:

.....など

1枚の希望の出力:

hello world (alphabet order)

ベストアンサー1

awk '
  {
    $0 = tolower($0)
    for (i = 1; i < NF; i++) {
      pair = $i"" < $(i+1) ? $i" "$(i+1) : $(i+1)" "$i
      c = ++count[pair]
      if (c > max) max = c
    }
  }
  END {
    for (pair in count)
      if (count[pair] == max)
        print pair
  }'

おすすめ記事