PDFファイルが画像で構成されているかどうかを検出する

2024-06-27 • tag-icon

bash shell-script pdf

OCR処理の正しい場所に移動するために、実際にはテキストではなく画像である多数のPDFファイルを前処理しようとしています。

問題は、PDFをOCRする前にPDFが画像ベースであるかどうかを検出しようとしましたが、これまで成功していないことです。 " pdffonts filename"を使用することは正しい方法と見なされますが、画像のみがあるPDFにもフォントがあります。

pdfimages -list filename.pdf

これを行う必要があります。これにより、PDFファイルに含まれる画像のリストが表示されます。

おすすめ記事