tesseract：OCRed PDFでフォント出力を変更できますか？

2024-06-09 • tag-icon

フォローアップPDFファイルをOCRしてPDFに保存されたテキストを取得するには？OCRed pdfページが正常に作成されました。

しかし、Evinceではこれらの文字は表示されません。つまり、文字を見ることはできませんが、文字を選択してコピーして他の場所に正常に貼り付けることができます。これはEvinceのせいではないようです。https://bugzilla.redhat.com/show_bug.cgi?id=1364201

pdfsandwichを使用してPDFページのOCRを開始すると、tesseractはページを生成します。

使用可能なグリフのないフォントが含まれています（GlyphLessFontと呼ばれます）。 .notdef および .null 代替エントリ (四角形) のみがあります。文字にグリフがない場合、Evinceは.notdefグリフを使用します。 Okularがテキストを強調する理由は、evinceなどのプレーンテキストではなく、画像内のテキストを強調するためです。

pdftotext は文字を識別します。

今、質問はtesseractに別のフォントを使用するように指示できますか？

ベストアンサー1

ソースコードのこの部分を必要に応じてカスタマイズし、ここでフォントを変更できます。変更したら、ソースからtesseractを再構築する必要があります。

Tesseract Github Renderer.h

ベストアンサー1

おすすめ記事