解決策

解決策

PDF文書があれば、文書をスキャンしたもので、スキャンした文書の写真だけを保存するので、容量が非常に大きいファイルなのです。

テキストのみを保存する正しい文書を作成するのに役立つOCRツールはありますか?

まあ、私はその逆が必要です!完璧なPDF文書があり、pdflatexそれを紙に印刷した場合(特定のdpi値で)正確に同じように見えますが、元の画像である「巨大な」PDFに変換する必要があるとします。

私の最初のアイデアは、PDFを一連のJPGに変換してからPDFに変換することでしたが、標準的な方法はありますか?


私がなぜこのようなことをしたいのか疑問に思うなら、私は現在管理していないネットワークプリンタに閉じ込められ、印刷されたファイルからランダムに文字を削除しています!したがって、誰かが何が間違っているのかを理解するまで、これを解決策として残したいと思います。

ベストアンサー1

画像ベースのPDFも汚染されているかどうかをテストできます。まず、PDFを(複数ページ)TIFFに変換します。ゴーストスクリプト:

gs -sDEVICE=tiffg4 -o sample.tif sample.pdf

次にTIFFをPDFに変換します。例:

tiff2pdf -z -f -F -pA4 -o sample-img.pdf sample.tif

これにより、ページがテキストではなく画像であるPDFファイルが生成されます。

または、システムがTIFFファイルの印刷をサポートしている場合は、直接印刷してみてください。

PDFをPSに変換するオプションもありますがpdf2ps、可能であればより良いようです。

おすすめ記事