本文介绍用Python简单读取* docx文件信息,一些python-word库就是对这种方法的扩展。
介绍分两部分:
-
<李>词(*。docx)文件简述李>
<李> Python提取词信息
李>
<>强词(*。docx)文件简述强>
大约在2008年以前,办公室产品中词用。医生文件格式,这种二进制格式很难与其他软件兼容。
为了跟上时,代微软采用类XML格式标准定义其新版词文件。多克斯。
docx实际上是一个zip的压缩文件,比如我们有一个test.docx的文件:
其内容如下:
改变其后缀名为test.zip,然后解压,会得到如下文件:
其中字文件的正文内容被保持在词/document.xml中,我们可以打开查看:
<强> Python提取词信息强>
(根据词。多克斯)文件格式,我们遵循如下步骤进行正文信息的提取:
1解压。多克斯文件
2用BeautifulSoup解析字/document.xml提取正文信息
具体代码如下:
从zipfile进口zipfile 从bs4进口BeautifulSoup 文档=ZipFile (“test.docx”) xml=document.read(“词/document.xml”) wordObj=BeautifulSoup (xml.decode (“utf - 8”)) 文本=wordObj.findAll (w: t) 文本的文本: 打印(text.text) >之前以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
Python读取词(docx)正文信息的方法