読みやすいエンコーディングでテキストを出力するには、「pdftotext」をどのように取得しますか?

読みやすいエンコーディングでテキストを出力するには、「pdftotext」をどのように取得しますか?

.txtファイルを使用してPDFファイルをtxtファイルに変換しますpdftotext。たとえば、「これは...の機能的相関に関する最初の研究です」という文があり、GATEを介してこの文を処理するときに、「first」のfを参照して「first」を「ï rst”に変換します。 ”エピソームでトランスフェクトされたHEK293EBNA細胞からタンパク質を単離し、a”から親和性クロマトグラフィーで精製しました。 「によってエピソームでトランスフェクトされたHEK293EBNA細胞からタンパク質を単離および精製した。」aに対する親和性クロマトグラフィー。

pdftotext読みやすいエンコーディングでテキストを出力するには?

ベストアンサー1

貼り付けたテキストでは、「first」の「fi」と「affinity」の「ffi」は合字です(複数の文字が1つの文字の形にまとめられています)。おそらく、pdftotext各合字を単一の文字で印刷することは、テキストを読み取るために使用するツールではサポートされていません。

としてスーパーユーザーの問題提案は次のとおりです。

pdftotext -enc ASCII7 input.pdf output.txt

これにより、pdftotext合字をそのまま印刷してASCII文字に拡張することを防ぐことができます。

おすすめ記事