Mupdf：PDFファイルでハイフンでリンクされた単語を見つける

Question

PDFには元のテキストは含まれていませんが、文字の外観を配置する場所に関する指示が含まれています。 PDFでのテキスト検索は、（1）どのUnicode文字に対応する文字の外観を記述するテーブルを持つPDF（2）これらの翻訳された文字を単語に再組み立てする方法（3）生成アプリケーションの動作方法について仮定（たとえば、Put glyphs）によって異なります。たとえば、2つのテキスト列が同時に2つの列にレンダリングされると、これはひどく失敗します。

合字を説明するには、行末でダッシュを検出し（他のグリフを使用することができます）、単語をマージするアルゴリズムを実装する必要があります（そしてドイツ語などの合字の特別な規則を考慮する必要がありますck）。

はい。可能ですが簡単ではなく、とにかく特定の言語/スクリプトでのみ機能します。

Answer 1

PDFには元のテキストは含まれていませんが、文字の外観を配置する場所に関する指示が含まれています。 PDFでのテキスト検索は、（1）どのUnicode文字に対応する文字の外観を記述するテーブルを持つPDF（2）これらの翻訳された文字を単語に再組み立てする方法（3）生成アプリケーションの動作方法について仮定（たとえば、Put glyphs）によって異なります。たとえば、2つのテキスト列が同時に2つの列にレンダリングされると、これはひどく失敗します。

合字を説明するには、行末でダッシュを検出し（他のグリフを使用することができます）、単語をマージするアルゴリズムを実装する必要があります（そしてドイツ語などの合字の特別な規則を考慮する必要がありますck）。

はい。可能ですが簡単ではなく、とにかく特定の言語/スクリプトでのみ機能します。

Mupdf：PDFファイルでハイフンでリンクされた単語を見つける

ベストアンサー1

おすすめ記事