COM/オートメーションを使用せずにWord文書からテキストを抽出する最良の方法は? 質問する

Question

今週作成したネイティブ Python docx モジュールを使用します。ドキュメントからすべてのテキストを抽出する方法は次のとおりです。

document = opendocx('Hello world.docx')

# This location is where most document content lives 
docbody = document.xpath('/w:document/w:body', namespaces=wordnamespaces)[0]

# Extract all text
print getdocumenttext(document)

見るPython DocX サイト

100% Python、COM なし、.net なし、Java なし、正規表現を使用したシリアル化された XML の解析なし。

Answer 1

（同じ答えPythonでMS Wordファイルからテキストを抽出する）

今週作成したネイティブ Python docx モジュールを使用します。ドキュメントからすべてのテキストを抽出する方法は次のとおりです。

document = opendocx('Hello world.docx')

# This location is where most document content lives 
docbody = document.xpath('/w:document/w:body', namespaces=wordnamespaces)[0]

# Extract all text
print getdocumenttext(document)

見るPython DocX サイト

100% Python、COM なし、.net なし、Java なし、正規表現を使用したシリアル化された XML の解析なし。

COM/オートメーションを使用せずにWord文書からテキストを抽出する最良の方法は? 質問する

ベストアンサー1

おすすめ記事