COM/オートメーションを使用せずにWord文書からテキストを抽出する最良の方法は? 質問する

COM/オートメーションを使用せずにWord文書からテキストを抽出する最良の方法は? 質問する

COM オートメーションに依存しない Word ファイルからプレーン テキストを抽出する合理的な方法はありますか? (これは、Windows 以外のプラットフォームに展開された Web アプリの機能であり、この場合は交渉の余地がありません。)

Antiword は合理的な選択肢のように思えますが、放棄される可能性もあります。

Python ソリューションが理想的ですが、利用できないようです。

ベストアンサー1

(同じ答えPythonでMS Wordファイルからテキストを抽出する

今週作成したネイティブ Python docx モジュールを使用します。ドキュメントからすべてのテキストを抽出する方法は次のとおりです。

document = opendocx('Hello world.docx')

# This location is where most document content lives 
docbody = document.xpath('/w:document/w:body', namespaces=wordnamespaces)[0]

# Extract all text
print getdocumenttext(document)

見るPython DocX サイト

100% Python、COM なし、.net なし、Java なし、正規表現を使用したシリアル化された XML の解析なし。

おすすめ記事