PDFファイルの隠しテキストレイヤーがOCRからのものかどうかはどうすればわかりますか? [閉鎖]

PDFファイルの隠しテキストレイヤーがOCRからのものかどうかはどうすればわかりますか? [閉鎖]

非常に正確なテキスト(認識率とテキストと画像の並べ替えの両方)を含むいくつかのOCRed pdfファイルを見ました。

PDFファイルの隠しテキストレイヤーがOCRからのものであることを確認するのに役立つUnix / Linuxツールは何ですか?

ベストアンサー1

ファイルの唯一の画像は表紙と裏表紙であり、残りはスキャンした画像の後ろに隠されていないプレーンテキストです。

これがOCRではなくテキストを組版するというもう1つの兆候は、特殊フォント文字がそのフォントと、例えば画像で一般的に混同されるテキストとスーパーセットとOCRで組版されるという事実にもかかわらず、特殊フォント文字を正しく選択できることですです。

また、pdfinfoファイルがDVIPSONEとして作成されたことを示します。つまり、(La)TeXファイル - > DVI - > PSでしたが、Windows用Distiller 4.05を介してPDFファイルに変換されました。スキャンで構成されたPDFファイルの作成者がDVIPSONEを持つ可能性はほとんどありません。

おすすめ記事