Python读取词(docx)正文信息的方法 - 行业资讯 - 肥雀云

本文介绍用Python简单读取* docx文件信息,一些python-word库就是对这种方法的扩展。

介绍分两部分:

<>强词(*。docx)文件简述

大约在2008年以前,办公室产品中词用。医生文件格式,这种二进制格式很难与其他软件兼容。
　　为了跟上时,代微软采用类XML格式标准定义其新版词文件。多克斯。
　　docx实际上是一个zip的压缩文件,比如我们有一个test.docx的文件:

其内容如下:

改变其后缀名为test.zip,然后解压,会得到如下文件:

其中字文件的正文内容被保持在词/document.xml中,我们可以打开查看:

<强> Python提取词信息

　　(

根据词。多克斯)文件格式,我们遵循如下步骤进行正文信息的提取:
　　

1解压。多克斯文件
　　2用BeautifulSoup解析字/document.xml提取正文信息

具体代码如下:

　　　　　　从zipfile进口zipfile 　　从bs4进口BeautifulSoup 　　　　文档=ZipFile (“test.docx”) 　　xml=document.read(“词/document.xml”) 　　wordObj=BeautifulSoup (xml.decode (“utf - 8”)) 　　文本=wordObj.findAll (w: t) 　　文本的文本: 　　打印(text.text) 　　之前　　　　

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。