Mupdf:PDFファイルでハイフンでリンクされた単語を見つける

Mupdf:PDFファイルでハイフンでリンクされた単語を見つける

.pdfを使用してPDFファイルから単語を検索するときmupdf。完全な単語だけを見つけることができます。たとえば、「意味なし」という単語を検索すると、単語全体が検索されます。

This is a short, staggeringly meaningless sentence.

単語が2行に分かれているか(ハイフンで接続されているか)、事前に知る方法はありません。ハイフンを明示的に検索するのも面倒です。しかし、単語が行の末尾で改行されている場合は見つかりません。 「意味なし」を検索すると、この例ではその単語が見つかりません。

This is a short, staggeringly meaning-
less sentence.

PDFビューア「Evince」も同じように動作します。 「Mupdf」がハイフンでつながった用語を見つけることを可能にする(簡単な)方法はありますか?

ベストアンサー1

PDFには元のテキストは含まれていませんが、文字の外観を配置する場所に関する指示が含まれています。 PDFでのテキスト検索は、(1)どのUnicode文字に対応する文字の外観を記述するテーブルを持つPDF(2)これらの翻訳された文字を単語に再組み立てする方法(3)生成アプリケーションの動作方法について仮定(たとえば、Put glyphs)によって異なります。たとえば、2つのテキスト列が同時に2つの列にレンダリングされると、これはひどく失敗します。

合字を説明するには、行末でダッシュを検出し(他のグリフを使用することができます)、単語をマージするアルゴリズムを実装する必要があります(そしてドイツ語などの合字の特別な規則を考慮する必要がありますck)。

はい。可能ですが簡単ではなく、とにかく特定の言語/スクリプトでのみ機能します。

おすすめ記事