コマンドラインからPDFファイルの正規表現マスク

コマンドラインからPDFファイルの正規表現マスク

PDFで特定の正規表現を自動的にマスクしたり(おそらくより良い)正規表現に一致するように一致にノイズを導入したりできるLinux用のコマンドラインツール(またはツールバー)はありますか? PDFからその部分を読み取れません。

現在私はgimpを使って手動で実行していますが、これは非常に迷惑なので、自動化する方法を探しています(さらにスクリプトで使用)。

ベストアンサー1

PDFファイル形式の複雑さに応じて、さまざまなレベルの成功が可能です。

まず、Popplerを使用してPDFファイルをHTMLに変換しますpdftohtml

pdftohtml -noframes -s <input.pdf>

特定のテキストをぼかしたい場合は、正規表現を使用してください。

sed -i 's/<regexp>/<replacement>/g' <input.html>

HTMLファイルを再びPDFに変換する:

wkhtmltopdf --no-background --enable-local-file-access <input.html> <output.pdf>

wkhtmltopdf余白、サイズ、方向などを調整するには、さまざまなオプションを使用できます。よりman wkhtmltopdf

おすすめ記事