フォローアップPDFファイルをOCRしてPDFに保存されたテキストを取得するには?OCRed pdfページが正常に作成されました。
しかし、Evinceではこれらの文字は表示されません。つまり、文字を見ることはできませんが、文字を選択してコピーして他の場所に正常に貼り付けることができます。これはEvinceのせいではないようです。https://bugzilla.redhat.com/show_bug.cgi?id=1364201
pdfsandwichを使用してPDFページのOCRを開始すると、tesseractはページを生成します。
使用可能なグリフのないフォントが含まれています(GlyphLessFontと呼ばれます)。 .notdef および .null 代替エントリ (四角形) のみがあります。文字にグリフがない場合、Evinceは.notdefグリフを使用します。 Okularがテキストを強調する理由は、evinceなどのプレーンテキストではなく、画像内のテキストを強調するためです。
pdftotext は文字を識別します。
今、質問はtesseractに別のフォントを使用するように指示できますか?
ベストアンサー1
ソースコードのこの部分を必要に応じてカスタマイズし、ここでフォントを変更できます。変更したら、ソースからtesseractを再構築する必要があります。