私はPDF文書に関する情報を得るためにpoppler-utilsのようなツールを使用しましたqpdf
。pdfinfo
ただし、余白の幅、使用されているフォントのコレクションなど、より具体的な情報を取得する方法を探していますが、pdfinfo
取得できませんqpdf
。ただし、PDFをJSON表現に変換するオプションがqpdf
あります。--json
私はJSONについて少し知っていますが、「Margin」または「Font-Family」という属性を見つけることができません。このような情報はPDF形式で文書化されていますか?
この質問がこのボードやStackOverflowに適しているかどうかはわかりません。これは、この情報を抽出するプログラム(CやPythonライブラリなど)がある場合は、その方法も使用できるからです。どんな提案がありますか?
私の主な目標は、ドキュメントのすべての余白/フォント情報をコピーして(一貫してTeXやLaTeXなどのプログラムで書かれていると仮定して)、正確なスタイルを再現できることです。これで、PDFビューアが提供するツールを使用して、カーソルを使用して座標を使用して余白(またはすべての種類の長さ)を計算し、フォントについて推測する必要があります。
ベストアンサー1
しかし、余白幅など、より具体的な情報を取得する方法を探しています。
PDF形式では、デフォルトでページ上にグリフ(「文字」)を配置する場所を説明します(何よりもこれがほとんどです)。この情報を直接処理して余白を計算することも、イメージとしてghostscript
レンダリングして処理して余白を回復することもできますが、「余白とは何か」自体はPDFにはありません。しかし、境界ボックス情報があります。
使用されたフォントファミリー
この情報はPDFに存在する場合と存在しない場合があります。フォントに名前を付けますが、フォントを完全に含めることができ、生成された名前を使用して自動的に名前を付けると、フォントを識別することは困難です。
なぜなら、この情報を抽出するプログラム(CやPythonライブラリなど)があれば、私も喜んで使うからです。
見るドープライブラリとCLIツールが付属していますmutool
。これを使用してPDF内のストリームを解凍し、結果ファイルをエディタで開くことができます。 PDF仕様は次のとおりです。ここ。
私の主な目標は、ドキュメントのすべての余白/フォント情報をコピーして(一貫してTeXやLaTeXなどのプログラムで書かれていると仮定して)、正確なスタイルを再現できることです。
LaTeXソースコードが特定のツールチェーンを介して処理され、特定のPDFスタイルを使用しない限り、これは非常に困難です。ソースがLaTeXであることを知っていれば、幸運にもフォントを識別できます。