非常に正確なテキスト(認識率とテキストと画像の並べ替えの両方)を含むいくつかのOCRed pdfファイルを見ました。
PDFファイルの隠しテキストレイヤーがOCRからのものであることを確認するのに役立つUnix / Linuxツールは何ですか?
ベストアンサー1
ファイルの唯一の画像は表紙と裏表紙であり、残りはスキャンした画像の後ろに隠されていないプレーンテキストです。
これがOCRではなくテキストを組版するというもう1つの兆候は、特殊フォント文字がそのフォントと、例えば画像で一般的に混同されるテキストとスーパーセットとOCRで組版されるという事実にもかかわらず、特殊フォント文字を正しく選択できることですです。
また、pdfinfo
ファイルがDVIPSONEとして作成されたことを示します。つまり、(La)TeXファイル - > DVI - > PSでしたが、Windows用Distiller 4.05を介してPDFファイルに変換されました。スキャンで構成されたPDFファイルの作成者がDVIPSONEを持つ可能性はほとんどありません。