pdfimagesを使用して画像を抽出する際に問題が発生する

pdfimagesを使用して画像を抽出する際に問題が発生する

次のPDFから画像を抽出したいです。

https://doku.pub/documents/benveniste-e-vocabulario-de-las-intituciones-as-3nl271x3v808

私は走るpdfimages -j file.pdf image

しかし、私が得たのは、奇妙なグラフィックとページが空であることです(テキストがプロセスで失われた他の画像であるかのように)。この画像は、本をデジタル化した人が撮った元の写真の一部であるようです。

私はpdfinfo file.pdf得る

Creator:        Canon CLC5151  PDF
Producer:       ilovepdf.com
CreationDate:   Tue Sep  1 19:50:40 2009 CEST
ModDate:        Mon Sep 24 16:11:26 2018 CEST
Tagged:         no
UserProperties: no
Suspects:       no
Form:           AcroForm
JavaScript:     no
Pages:          233
Encrypted:      no
Page size:      690.764 x 1039.76 pts
Page rot:       90
File size:      101724898 bytes
Optimized:      yes
PDF version:    1.6

ベストアンサー1

PDFには各ページの画像が含まれ、各画像にはスキャナ領域全体が含まれています。 PDFは、実際に含まれる情報の一部のみを表示するために変換、サイズ変更などを行うことができます。

ここに画像の説明を入力してください。

ページを取得する別の方法は次のとおりです。

$ pdftoppm -cropbox -jpeg file.pdf prefix

これにより、画像がインポートされ、pdfファイルの「トリミングボックス」に従って切り捨てられます(以下の説明を参照)。

おすすめ記事