COM オートメーションに依存しない Word ファイルからプレーン テキストを抽出する合理的な方法はありますか? (これは、Windows 以外のプラットフォームに展開された Web アプリの機能であり、この場合は交渉の余地がありません。)
Antiword は合理的な選択肢のように思えますが、放棄される可能性もあります。
Python ソリューションが理想的ですが、利用できないようです。
ベストアンサー1
(同じ答えPythonでMS Wordファイルからテキストを抽出する)
今週作成したネイティブ Python docx モジュールを使用します。ドキュメントからすべてのテキストを抽出する方法は次のとおりです。
document = opendocx('Hello world.docx')
# This location is where most document content lives
docbody = document.xpath('/w:document/w:body', namespaces=wordnamespaces)[0]
# Extract all text
print getdocumenttext(document)
100% Python、COM なし、.net なし、Java なし、正規表現を使用したシリアル化された XML の解析なし。