PDFファイルのすべてのリンクとそのリンクを含むページとX / Yの場所を見つける必要があります。これを行うために使用できるツールまたはツールの組み合わせはありますか?
ベストアンサー1
特定のテキストやリンク内の座標を知らせるツールについて聞いたことはありません。PDF文書。この作業を確実に行う方法は想像することさえ難しい。ツールは、文書内のすべてのテキストの幾何学的構造を計算する必要があります(標準のpoppler
PDFレンダリングライブラリへの変更が必要な場合があります)、そうでない場合は実行に基づいている必要があります。 pdf Viewer X 自動化ツールのいくつかは推定を実行します。
多くの労力をかけずにgrepを実行することで、暗号化されていない圧縮されていないPDFファイルからリンクを見つけることができます。以下は、grep
利用可能な検索のいくつかの例です。
grep -ao "http://[[:print:]]*" TheFile.pdf
grep -ao "http://[[:alnum:]./]*" TheFile.pdf
grep -ao "http://[^ ']*" TheFile.pdf
grep -ao "URI(http://.*[^\])" TheFile.pdf
最後のリンクは、ファイルを読み取るときに見つけることができるリンクに最も近いものです。ただし、ドキュメントから実際に必要なリンクを抽出するには、これらの正規表現の一部を処理する必要があります。
文書が圧縮または暗号化されている場合は、まず文書からプレーンテキストバージョンを抽出する必要があります。pdftk
これを行うには、または同様のツールを使用してください。