介绍
小编给大家分享一下Python中pdfminer如何抓PDF中取的内容,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获、下面让我们一起去了解一下吧!
转换PDF有很多库可以完成,如下是通过<强> pdfminer 强>的示例:
得到cStringIO import StringIO 得到pdfminer.pdfinterp import PDFResourceManager PDFPageInterpreter 得到pdfminer.converter import  TextConverter 得到pdfminer.layout import  LAParams 得到pdfminer.pdfpage import  PDFPage def convert_pdf_2_text(路径): ,,,, ,,,rsrcmgr =, PDFResourceManager () ,,,retstr =, StringIO () ,,,, ,,,device =, TextConverter (rsrcmgr, retstr,,编解码器=& # 39;utf - 8 # 39;,, laparams=laparams ()) ,,,interpreter =, PDFPageInterpreter (rsrcmgr,设备) ,,,, ,,,with 开放(路径,& # 39;rb # 39;), as 外交政策: ,,,,,,,,for page 拷贝PDFPage.get_pages (fp,, ()): ,,,,,,,,,,,,interpreter.process_page(页面) ,,,,,,,,text =, retstr.getvalue () ,,,,,,,,,,,,, ,,,,,,,,,,,,,,device.close () ,,,,,,,,,,,,,,retstr.close () ,,,,,,,,,,,,,,,, ,,,,,,,,,,,,,,return 文本
需要指出的是,pdfminer不但可以将PDF转换为<强>文本>强文本,还可以转换为<强> HTML 强>等带有标签的文本。上面只是最简单的示例,如果每页有很独特的标志,你还可以按页单独处理。
以上是Python中pdfminer如何抓PDF中取的内容的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!