私はless
それをpdftotext
PDFファイルからテキストを抽出するために使用しますless my.pdf
。このように、一部の単語にはスペースで区切られた文字があります。PDFファイル。
CH APTE R 2 5 T E ST IN G WE B A P P LIC AT IO N S 540
一部の人はAdobe Readerに問題がないと主張しています。これを確認する手順はありません。しかし、Linuxのどのソフトウェアプログラムが単語を正しく抽出できるかを知りたいです。
ベストアンサー1
PDFとその姉妹PostScriptは、すべてのデバイス(モニター、プリンター、印刷機など)で毎回同じ出力を再現する文書を作成するための言語です。したがって、文書作成者は各文字属性を個別に指定することができる。あなたの文書を見なくても、作者が文字を分離する理由を推測できます。最も一般的な原因はカーニングです。文字間の間隔を調整する場所です。
幸いなことに、キャラクターは実際に順番になっています。クリエイターがキャラクターを再配置して完全に順番に作成できない理由はありません。ページでは単語のように見えますが、PDFコードでは単語ではありません。