ファイルで最も一般的なN個の単語を見つけてハイフンを処理する方法は?

ファイルで最も一般的なN個の単語を見つけてハイフンを処理する方法は?

次のテキストを含むファイルがあるとします。

hello hel-
lo world wor-
ld test test he-
lo words words

スペースを区切り文字として使用すると、

hello: 1
world: 1
wor:1
ld:1
he: 1
hel-: 1
test:2
lo: 2
words: 2

つまり、ハイフンを使用して2行を区切って1つの単語として扱う単語をどのように処理しますか?

ベストアンサー1

これにより、トリックを実行できます。

sed ':1;/-$/{N;b1};s/-\n//g;y/ /\n/' file | sort | uniq -c

おすすめ記事