移行プロジェクトのためにウェブサイトをスクレイピングしました。ファイル形式の統計を作成したい(例:400.html
ファイル、100.gif
ファイルなど)。これを行う簡単な方法はありますか?再帰的でなければなりません。
編集する:maxschhelpzigによって公開されたスクリプトを使用してスクラップしていたサイトのアーキテクチャにより、いくつかの問題が発生しました。一部のファイルには*.php?blah=blah&foo=bar
異なるパラメータを含む名前があるため、すべて一意に処理されます。したがって、解決策は*.php*
言えば、同じ種類をすべて考慮する必要があります。
ベストアンサー1
これにはfind
andを使用できます。たとえば、次のようになります。uniq
$ find . -type f | sed 's/.*\.//' | sort | uniq -c
16 avi
29 jpg
136 mp3
3 mp4
命令の説明
find
すべてのファイル名を再帰的に印刷sed
各ファイル名からファイル拡張子までの接頭辞を削除します。uniq
入力がソートされたとします。-c
(ヒストグラムのように)数字を数えます。