「pdfimages」と「pdftoppm」の違いは何ですか？

Question

違いはツールの目的から来ています。 PDFが柔軟なファイル形式であることがわかると、これは明らかになります。これには、テキスト、ベクターグラフィック、およびラスターイメージを含めることができます（このリストは完全なリストではありません）。「レイアウト情報を含むzip」（全体の簡略化）と考えることができます。

pdftoppmPDF全体を「レンダリング」または「ラスタライズ」します。すべてのテキストとグラフィックはラスター化された出力イメージになります。
埋め込まれたラスター画像のピクセルが出力「キャンバス」のピクセルとほとんど揃わないため、補間が発生し品質が低下します。これは出力解像度（オプション-r）を大幅に増やすことで対応できます。もちろん、これはファイルサイズも増加することを意味します。
pdfimagesラスターイメージはPDFファイルから抽出されます。テキストまたはベクターグラフィックは無視されます。
ラスターイメージはそのまま抽出されるため、元の品質は維持されますが、レイアウトに関する情報は失われます。

入力PDFにラスター画像のみが含まれていて、他の画像がまったく含まれていない場合、出力は同様に見えることがあります。

あなたの例では、コピー機のスキャン機能はテキストブロックを識別して高品質で保存しようとします。文書の残りの部分（白い背景など）は、保存スペースを節約するために低品質で保存されます。あなたが見つけたように、これは誰かに有利かもしれないし、そうではないかもしれません。

Answer 1

違いはツールの目的から来ています。 PDFが柔軟なファイル形式であることがわかると、これは明らかになります。これには、テキスト、ベクターグラフィック、およびラスターイメージを含めることができます（このリストは完全なリストではありません）。「レイアウト情報を含むzip」（全体の簡略化）と考えることができます。

pdftoppmPDF全体を「レンダリング」または「ラスタライズ」します。すべてのテキストとグラフィックはラスター化された出力イメージになります。
埋め込まれたラスター画像のピクセルが出力「キャンバス」のピクセルとほとんど揃わないため、補間が発生し品質が低下します。これは出力解像度（オプション-r）を大幅に増やすことで対応できます。もちろん、これはファイルサイズも増加することを意味します。
pdfimagesラスターイメージはPDFファイルから抽出されます。テキストまたはベクターグラフィックは無視されます。
ラスターイメージはそのまま抽出されるため、元の品質は維持されますが、レイアウトに関する情報は失われます。

入力PDFにラスター画像のみが含まれていて、他の画像がまったく含まれていない場合、出力は同様に見えることがあります。

あなたの例では、コピー機のスキャン機能はテキストブロックを識別して高品質で保存しようとします。文書の残りの部分（白い背景など）は、保存スペースを節約するために低品質で保存されます。あなたが見つけたように、これは誰かに有利かもしれないし、そうではないかもしれません。

「pdfimages」と「pdftoppm」の違いは何ですか？

ベストアンサー1

おすすめ記事