Python中pdfminer如何抓PDF中取的内容 - 行业资讯 - 肥雀云

　　介绍

小编给大家分享一下Python中pdfminer如何抓PDF中取的内容,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获、下面让我们一起去了解一下吧!

转换PDF有很多库可以完成,如下是通过<强> pdfminer 的示例:

得到cStringIO import StringIO 　　　　得到pdfminer.pdfinterp import PDFResourceManager PDFPageInterpreter 　　得到pdfminer.converter import TextConverter 　　得到pdfminer.layout import LAParams 　　得到pdfminer.pdfpage import PDFPage 　　　　　　def convert_pdf_2_text(路径): 　　,,,, 　　,,,rsrcmgr =, PDFResourceManager () 　　,,,retstr =, StringIO () 　　,,,, 　　,,,device =, TextConverter (rsrcmgr, retstr,,编解码器=& # 39;utf - 8 # 39;,, laparams=laparams ()) 　　,,,interpreter =, PDFPageInterpreter (rsrcmgr,设备) 　　,,,, 　　,,,with 开放(路径,& # 39;rb # 39;), as 外交政策: 　　,,,,,,,,for page 拷贝PDFPage.get_pages (fp,, ()): 　　,,,,,,,,,,,,interpreter.process_page(页面) 　　,,,,,,,,text =, retstr.getvalue () 　　,,,,,,,,,,,,, 　　,,,,,,,,,,,,,,device.close () 　　,,,,,,,,,,,,,,retstr.close () 　　,,,,,,,,,,,,,,,, 　　,,,,,,,,,,,,,,return 文本

需要指出的是,pdfminer不但可以将PDF转换为<强>文本强文本,还可以转换为<强> HTML 等带有标签的文本。上面只是最简单的示例,如果每页有很独特的标志,你还可以按页单独处理。

以上是Python中pdfminer如何抓PDF中取的内容的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!