PDFで特定の正規表現を自動的にマスクしたり(おそらくより良い)正規表現に一致するように一致にノイズを導入したりできるLinux用のコマンドラインツール(またはツールバー)はありますか? PDFからその部分を読み取れません。
現在私はgimpを使って手動で実行していますが、これは非常に迷惑なので、自動化する方法を探しています(さらにスクリプトで使用)。
ベストアンサー1
PDFファイル形式の複雑さに応じて、さまざまなレベルの成功が可能です。
まず、Popplerを使用してPDFファイルをHTMLに変換しますpdftohtml
。
pdftohtml -noframes -s <input.pdf>
特定のテキストをぼかしたい場合は、正規表現を使用してください。
sed -i 's/<regexp>/<replacement>/g' <input.html>
HTMLファイルを再びPDFに変換する:
wkhtmltopdf --no-background --enable-local-file-access <input.html> <output.pdf>
wkhtmltopdf
余白、サイズ、方向などを調整するには、さまざまなオプションを使用できます。よりman wkhtmltopdf
。