ファイル部分で最も一般的な文字列を見つける

2024-06-12 • tag-icon

text-processing sort

次のファイルがあります。

o99 ケサド<タブ>エイビーシーディ
$%!H$!(<タブ>00
!sdafで<タブ>12
サルバ
&!§!&%

（どこ<tab>実際のTAB文字を表します）。

明確にすると、これには2つの「列」が含まれ、2番目の列は完全に空白になり、最初の列には空白とさまざまな記号が含まれます。たとえば、上記の入力例の最後の2行は、2番目の列には何も含めません。列はタブで区切られます。

最初の列で最も一般的な文字列を見つける方法を探しています。出力は、（好ましくは）この頻度でソートされたファイル、または最も一般的な数値文字列を順番にリストする別々の出力ファイルです。

私はLinuxを使用しています。

cut -f1 file | sort | uniq -c | sort -rn

\ありがとうございます{ジェフ・シャーラー}

おすすめ記事