Python读取词(docx)正文信息的方法

  

本文介绍用Python简单读取* docx文件信息,一些python-word库就是对这种方法的扩展。

  

介绍分两部分:

  
      <李>词(*。docx)文件简述李   <李> Python提取词信息
      李   
  

<>强词(*。docx)文件简述

  

大约在2008年以前,办公室产品中词用。医生文件格式,这种二进制格式很难与其他软件兼容。
  为了跟上时,代微软采用类XML格式标准定义其新版词文件。多克斯。
  docx实际上是一个zip的压缩文件,比如我们有一个test.docx的文件:

  

 Python读取词(docx)正文信息的方法

  

其内容如下:

  

 Python读取词(docx)正文信息的方法

  

改变其后缀名为test.zip,然后解压,会得到如下文件:

  

 Python读取词(docx)正文信息的方法

  

其中字文件的正文内容被保持在词/document.xml中,我们可以打开查看:

  

 Python读取词(docx)正文信息的方法

  

<强> Python提取词信息

  (

根据词。多克斯)文件格式,我们遵循如下步骤进行正文信息的提取:
  

  

1解压。多克斯文件
  2用BeautifulSoup解析字/document.xml提取正文信息

  

具体代码如下:

        从zipfile进口zipfile   从bs4进口BeautifulSoup      文档=ZipFile (“test.docx”)   xml=document.read(“词/document.xml”)   wordObj=BeautifulSoup (xml.decode (“utf - 8”))   文本=wordObj.findAll (w: t)   文本的文本:   打印(text.text)   之前      

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
  

Python读取词(docx)正文信息的方法