介绍
这篇文章主要为大家详细介绍了使用Python怎么将pdf文档转换成txt文档,文中示例代码介绍的非常详细,具有一定的参考价值,发现的小伙伴们可以参考一下:
Python可以做什么
Python是一种编程语言,内置了许多有效的工具,Python几乎无所不能,该语言通俗易懂,容易入门,功能强大,在许多领域中都有广泛的应用,例如最热门的大数据分析,人工智能,网页开发等。
import os.path 得到pdfminer.pdfparser import  PDFParser PDFDocument 得到pdfminer.pdfinterp import PDFResourceManager PDFPageInterpreter 得到pdfminer.converter import  PDFPageAggregator 得到pdfminer.layout import  LTTextBoxHorizontal LAParams 得到pdfminer.pdfinterp import  PDFTextExtractionNotAllowed class CPdf2TxtManager (): & # 39;才能& # 39;& # 39;& # 39;& # 39; classdocs才能 & # 39;才能& # 39;& # 39; def 才能__init__(自我): ,,,& # 39;& # 39;& # 39;& # 39;& # 39; ,,,的构造函数 ,,,& # 39;& # 39;& # 39; def 才能;changePdfToText(自我,,filePath): ,,,file =,开放(路径,& # 39;rb # 39;), #,以二进制读模式打开 ,,,#用文件对象来创建一个pdf文档分析器 ,,,praser =, PDFParser(文件) ,,,#,创建一个PDF文档 ,,,doc =, PDFDocument () ,,,#,连接分析器,与文档对象 ,,,praser.set_document (doc) ,,,doc.set_parser(普拉斯) ,,,#,提供初始化密码 ,,,#,如果没有密码,就创建一个空的字符串 ,,,doc.initialize () ,,,#,检测文档是否提供txt转换,不提供就忽略 ,,,if not doc.is_extractable: ,,,,,raise PDFTextExtractionNotAllowed ,,,#,创建PDf 资源管理器,来管理共享资源 ,,,rsrcmgr =, PDFResourceManager () ,,,#,创建一个PDF设备对象 ,,,laparams =, LAParams () ,,,device =, PDFPageAggregator (rsrcmgr, laparams=laparams) ,,,#,创建一个PDF解释器对象 ,,,interpreter =, PDFPageInterpreter (rsrcmgr,设备) ,,,pdfStr =, & # 39; & # 39; ,,,#,循环遍历列表,每次处理一个页面的内容 ,,,for page 拷贝doc.get_pages ():, #, doc.get_pages(),获取页面列表 ,,,,,interpreter.process_page(页面) ,,,,,#,接受该页面的LTPage对象 ,,,,,layout =, device.get_result () ,,,,,#,这里的布局是一个LTPage对象,里面存放着,这个页面解析出的各种对象,一般包括LTTextBox,, LTFigure,, LTImage,, LTTextBoxHorizontal 等等,想要获取文本就获得对象的文本属性, ,,,,,for x 拷贝布局: ,,,,,,,if (isinstance (x), LTTextBoxHorizontal)): ,,,,,,,,,pdfStr =, pdfStr +, x.get_text (), +, & # 39; \ n # 39; ,,,fileNames =, os.path.splitext (filePath) ,,,file2 =,开放(文件名[0],+,& # 39;. txt # 39;, & # 39; wb # 39;) #保存这些内容 ,,,file2.write (pdfStr.encode ()) ,,,file2.close () ,,,file.close () if __name__ ==, & # 39; __main__ # 39;: & # 39;才能& # 39;& # 39;& # 39;& # 39; ,才能解析pdf 文本,保存到txt文件中 & # 39;才能& # 39;& # 39; path 才能=," # 39;C: \ \用户管理员桌面\ \《精力管理》。pdf # 39; 时间=pdf2TxtManager 才能;CPdf2TxtManager () pdf2TxtManager.changePdfToText才能(路径)
以上就是小编为大家收集整理的使用Python怎么将pdf文档转换成txt文档,如何觉得网站的内容还不错,欢迎将网站推荐给身边好友。