ディレクトリ内のファイルタイプの再帰統計?

ディレクトリ内のファイルタイプの再帰統計?

移行プロジェクトのためにウェブサイトをスクレイピングしました。ファイル形式の統計を作成したい(例:400.htmlファイル、100.gifファイルなど)。これを行う簡単な方法はありますか?再帰的でなければなりません。

編集する:maxschhelpzigによって公開されたスクリプトを使用してスクラップしていたサイトのアーキテクチャにより、いくつかの問題が発生しました。一部のファイルには*.php?blah=blah&foo=bar異なるパラメータを含む名前があるため、すべて一意に処理されます。したがって、解決策は*.php*言えば、同じ種類をすべて考慮する必要があります。

ベストアンサー1

これにはfindandを使用できます。たとえば、次のようになります。uniq

$ find . -type f | sed 's/.*\.//' | sort | uniq -c
   16 avi
   29 jpg
  136 mp3
    3 mp4

命令の説明

  • findすべてのファイル名を再帰的に印刷
  • sed各ファイル名からファイル拡張子までの接頭辞を削除します。
  • uniq入力がソートされたとします。
    • -c(ヒストグラムのように)数字を数えます。

おすすめ記事