テキストを含むすべての画像を見つける方法は?

テキストを含むすべての画像を見つける方法は?

画像が多く、その中に英語のテキストを含む画像を見つける必要があります(削除するには)。自動でできますか?

ベストアンサー1

私も同じ問題が発生しました。解決策を共有します。

find . -type f \( -name "*.jpg" -or -name "*.png" \) -exec sh -c 'for x; do printf "%s :" "$x"; tesseract $x temp; if (grep -f blacklist temp.txt) then rm $x; rm temp.txt; fi; done' _ {} +

すべてのサブディレクトリを調べ、「blacklist」というファイルに基づいて一致するOCRパターンを削除します。唯一の問題は、ファイルにスペースが含まれている場合は正しく解析せずに、代わりにファイルの最初の単語を操作しようとすることです。

編集:ブラックリストファイルに空白行を置かないように注意してください。

おすすめ記事