PDFファイルから余白幅などの文書情報を抽出しますか?

PDFファイルから余白幅などの文書情報を抽出しますか?

私はPDF文書に関する情報を得るためにpoppler-utilsのようなツールを使用しましたqpdfpdfinfoただし、余白の幅、使用されているフォントのコレクションなど、より具体的な情報を取得する方法を探していますが、pdfinfo取得できませんqpdf。ただし、PDFをJSON表現に変換するオプションがqpdfあります。--json私はJSONについて少し知っていますが、「Margin」または「Font-Family」という属性を見つけることができません。このような情報はPDF形式で文書化されていますか?

この質問がこのボードやStackOverflowに適しているかどうかはわかりません。これは、この情報を抽出するプログラム(CやPythonライブラリなど)がある場合は、その方法も使用できるからです。どんな提案がありますか?

私の主な目標は、ドキュメントのすべての余白/フォント情報をコピーして(一貫してTeXやLaTeXなどのプログラムで書かれていると仮定して)、正確なスタイルを再現できることです。これで、PDFビューアが提供するツールを使用して、カーソルを使用して座標を使用して余白(またはすべての種類の長さ)を計算し、フォントについて推測する必要があります。

ベストアンサー1

しかし、余白幅など、より具体的な情報を取得する方法を探しています。

PDF形式では、デフォルトでページ上にグリフ(「文字」)を配置する場所を説明します(何よりもこれがほとんどです)。この情報を直接処理して余白を計算することも、イメージとしてghostscriptレンダリングして処理して余白を回復することもできますが、「余白とは何か」自体はPDFにはありません。しかし、境界ボックス情報があります。

使用されたフォントファミリー

この情報はPDFに存在する場合と存在しない場合があります。フォントに名前を付けますが、フォントを完全に含めることができ、生成された名前を使用して自動的に名前を付けると、フォントを識別することは困難です。

なぜなら、この情報を抽出するプログラム(CやPythonライブラリなど)があれば、私も喜んで使うからです。

見るドープライブラリとCLIツールが付属していますmutool。これを使用してPDF内のストリームを解凍し、結果ファイルをエディタで開くことができます。 PDF仕様は次のとおりです。ここ

私の主な目標は、ドキュメントのすべての余白/フォント情報をコピーして(一貫してTeXやLaTeXなどのプログラムで書かれていると仮定して)、正確なスタイルを再現できることです。

LaTeXソースコードが特定のツールチェーンを介して処理され、特定のPDFスタイルを使用しない限り、これは非常に困難です。ソースがLaTeXであることを知っていれば、幸運にもフォントを識別できます。

おすすめ記事