PDFファイルからテキストを抽出するにはどうすればいいですか? 質問する

Question

私はPython 3.xとWindowsで使用できるシンプルなソリューションを探していました。テキスト抜粋残念なことですが、Windows/Python 3用のシンプルなソリューションをお探しの場合は、ティカパッケージ、PDF を読むのに本当に簡単です。

Tika-Python は、Apache Tika™ REST サービスへの Python バインディングであり、これにより Python コミュニティで Tika をネイティブに呼び出すことができます。

from tika import parser # pip install tika

raw = parser.from_file('sample.pdf')
print(raw['content'])

Tika は Java で記述されているため、Java ランタイムをインストールする必要があることに注意してください。

Answer 1

私はPython 3.xとWindowsで使用できるシンプルなソリューションを探していました。テキスト抜粋残念なことですが、Windows/Python 3用のシンプルなソリューションをお探しの場合は、ティカパッケージ、PDF を読むのに本当に簡単です。

Tika-Python は、Apache Tika™ REST サービスへの Python バインディングであり、これにより Python コミュニティで Tika をネイティブに呼び出すことができます。

from tika import parser # pip install tika

raw = parser.from_file('sample.pdf')
print(raw['content'])

Tika は Java で記述されているため、Java ランタイムをインストールする必要があることに注意してください。

おすすめ記事