PDF文書があれば、文書をスキャンしたもので、スキャンした文書の写真だけを保存するので、容量が非常に大きいファイルなのです。
テキストのみを保存する正しい文書を作成するのに役立つOCRツールはありますか?
まあ、私はその逆が必要です!完璧なPDF文書があり、pdflatex
それを紙に印刷した場合(特定のdpi値で)正確に同じように見えますが、元の画像である「巨大な」PDFに変換する必要があるとします。
私の最初のアイデアは、PDFを一連のJPGに変換してからPDFに変換することでしたが、標準的な方法はありますか?
私がなぜこのようなことをしたいのか疑問に思うなら、私は現在管理していないネットワークプリンタに閉じ込められ、印刷されたファイルからランダムに文字を削除しています!したがって、誰かが何が間違っているのかを理解するまで、これを解決策として残したいと思います。
ベストアンサー1
画像ベースのPDFも汚染されているかどうかをテストできます。まず、PDFを(複数ページ)TIFFに変換します。ゴーストスクリプト:
gs -sDEVICE=tiffg4 -o sample.tif sample.pdf
次にTIFFをPDFに変換します。例:
tiff2pdf -z -f -F -pA4 -o sample-img.pdf sample.tif
これにより、ページがテキストではなく画像であるPDFファイルが生成されます。
または、システムがTIFFファイルの印刷をサポートしている場合は、直接印刷してみてください。
PDFをPSに変換するオプションもありますがpdf2ps
、可能であればより良いようです。