PDFファイルから余白幅などの文書情報を抽出しますか？

Question

しかし、余白幅など、より具体的な情報を取得する方法を探しています。

PDF形式では、デフォルトでページ上にグリフ（「文字」）を配置する場所を説明します（何よりもこれがほとんどです）。この情報を直接処理して余白を計算することも、イメージとしてghostscriptレンダリングして処理して余白を回復することもできますが、「余白とは何か」自体はPDFにはありません。しかし、境界ボックス情報があります。

使用されたフォントファミリー

この情報はPDFに存在する場合と存在しない場合があります。フォントに名前を付けますが、フォントを完全に含めることができ、生成された名前を使用して自動的に名前を付けると、フォントを識別することは困難です。

なぜなら、この情報を抽出するプログラム（CやPythonライブラリなど）があれば、私も喜んで使うからです。

見るドープライブラリとCLIツールが付属していますmutool。これを使用してPDF内のストリームを解凍し、結果ファイルをエディタで開くことができます。 PDF仕様は次のとおりです。ここ。

私の主な目標は、ドキュメントのすべての余白/フォント情報をコピーして（一貫してTeXやLaTeXなどのプログラムで書かれていると仮定して）、正確なスタイルを再現できることです。

LaTeXソースコードが特定のツールチェーンを介して処理され、特定のPDFスタイルを使用しない限り、これは非常に困難です。ソースがLaTeXであることを知っていれば、幸運にもフォントを識別できます。

Answer 1