Python中pdfminer如何抓PDF中取的内容

  介绍

小编给大家分享一下Python中pdfminer如何抓PDF中取的内容,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获、下面让我们一起去了解一下吧!

转换PDF有很多库可以完成,如下是通过<强> pdfminer 的示例:

得到cStringIO  import  StringIO      得到pdfminer.pdfinterp  import  PDFResourceManager PDFPageInterpreter   得到pdfminer.converter  import  TextConverter   得到pdfminer.layout  import  LAParams   得到pdfminer.pdfpage  import  PDFPage         def  convert_pdf_2_text(路径):   ,,,,   ,,,rsrcmgr =, PDFResourceManager ()   ,,,retstr =, StringIO ()   ,,,,   ,,,device =, TextConverter (rsrcmgr, retstr,,编解码器=& # 39;utf - 8 # 39;,, laparams=laparams ())   ,,,interpreter =, PDFPageInterpreter (rsrcmgr,设备)   ,,,,   ,,,with 开放(路径,& # 39;rb # 39;), as 外交政策:   ,,,,,,,,for  page 拷贝PDFPage.get_pages (fp,, ()):   ,,,,,,,,,,,,interpreter.process_page(页面)   ,,,,,,,,text =, retstr.getvalue ()   ,,,,,,,,,,,,,   ,,,,,,,,,,,,,,device.close ()   ,,,,,,,,,,,,,,retstr.close ()   ,,,,,,,,,,,,,,,,   ,,,,,,,,,,,,,,return 文本

需要指出的是,pdfminer不但可以将PDF转换为<强>文本强文本,还可以转换为<强> HTML 等带有标签的文本。上面只是最简单的示例,如果每页有很独特的标志,你还可以按页单独处理。

以上是Python中pdfminer如何抓PDF中取的内容的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!

Python中pdfminer如何抓PDF中取的内容