PDF 文書内のテキスト構造を識別するのがそれほど難しいのに、PDF リーダーはどのようにしてそれをうまく行うのでしょうか? 質問する

Question

私はかつて、あなたがおっしゃったこととまったく同じことを実行するアルゴリズムを PDF エディター製品用に作成したことがあります。その PDF エディターは、現在でも最も多く使用されている PDF エディターです。あなたがおっしゃったことにはいくつかの理由があると思いますが、重要なのは焦点が絞られていることです。

PDF には (通常) 構造情報がまったく含まれていないというのは正しいです。PDF はページの視覚的表現に関心があり、必ずしもそのページの「意味」には関心がありません。つまり、最も純粋な形式では、行、段落、列などの情報は必要ありません。実際、テキスト自体の情報さえ必要ありません。テキストをコピーして貼り付けると意味不明になってしまう PDF ファイルも数多くあります。

したがって、フォーマットされたテキストを抽出できるようにしたい場合、ページ上のすべてのテキスト部分を調べ、場合によっては線画情報も考慮に入れて、それらをつなぎ合わせる必要があります。通常、これは、空白を調べて、最初に何が行で、何が段落かなどを判断するエンジンを作成することによって行われます。たとえば、表は非常に多様であるため、非常に難しいことで有名です。

代替戦略としては次のようなものが考えられます。

利用可能な構造情報のいくつかを見てみましょういくつかのPDF ファイル。一部の PDF/A ファイルとすべての PDF/UA ファイル (アーカイブ用 PDF とユニバーサルアクセシビリティ用 PDF) には、構造を取得するために使用できる構造情報が必要です。他の PDF ファイルにもその情報が含まれている場合があります。
PDF ドキュメントの作成者を調べ、それらの PDF を適切に処理するための特定のアルゴリズムを用意します。Word のみに関心がある場合、または処理する PDF の 99% が Word 2011 から作成されることがわかっている場合は、その知識を活用する価値があるかもしれません。

では、なぜ一部の製品は他の製品よりもこの点で優れているのでしょうか? おそらく焦点が合っているからでしょう。PDF 仕様は非常に広範囲にわたっており、一部のツールはより低レベルの PDF タスクに重点を置き、一部のツールはより高レベルの PDF タスクに重点を置きます。一部は「オフィス」での使用を指向し、一部は「グラフィックアート」での使用を指向します。焦点に応じて、特定の機能が注目に値するかどうかが決まる場合があります。

さらに、これはひどい答えのように思えるかもしれませんが、これはアルゴリズム的に難しい問題であり、市場の平均的な製品よりもはるかに優れたアルゴリズムを実装するには、天才的な開発者が 1 人必要だと考えています。これは、賢くて、それにいくらか注意を向けるだけの集中力があり、特に、これを書いているターゲット市場が何であるかをよく理解している場合、他の人は平凡な結果になる一方で、あなたは正しく結果を出すことができる領域の 1 つです。

(そして、私がそのコードを書いていた当時は、それを正しく理解していませんでした。私たちは最後までやり遂げて本当に良いものを作るための十分な集中力がなかったのです)

Answer 1

私はかつて、あなたがおっしゃったこととまったく同じことを実行するアルゴリズムを PDF エディター製品用に作成したことがあります。その PDF エディターは、現在でも最も多く使用されている PDF エディターです。あなたがおっしゃったことにはいくつかの理由があると思いますが、重要なのは焦点が絞られていることです。