PDFからhocrファイルを抽出するには?

PDFからhocrファイルを抽出するには?

以下からOCR編集PDFを作成していますtesseract

tesseract input.tif out pdf

hocrしかし、ファイルも必要ですtxt。最新バージョンtesseract すでにこの問題を解決しました。しかし、コンパイルが必要leptonicaで、同時にtesseract、あまり満足できません。

テキストファイルを抽出するために使用できますが、PDFから抽出する方法がpdftotext見つからないようです。hocr

ベストアンサー1

次のコマンドを実行して、pdfとhocrの両方を作成できます。

tesseract input.tif out pdf hocr 

おすすめ記事