PDFファイルをテキストに変換するPythonモジュールはありますか?試してみました一つのコードpypdf を使用する Activestate で見つかりましたが、生成されたテキストの間にスペースがなく、役に立ちませんでした。
ベストアンサー1
試すPDFマイナーPDF ファイルからテキストを HTML、SGML、または「タグ付き PDF」形式で抽出できます。
タグ付き PDF 形式は最もクリーンなようで、XML タグを削除するとテキストだけが残ります。
Python 3 バージョンは次の場所で入手できます。