使用Python怎么将pdf文档转换成txt文档 - 行业资讯 - 肥雀云

　　介绍

这篇文章主要为大家详细介绍了使用Python怎么将pdf文档转换成txt文档,文中示例代码介绍的非常详细,具有一定的参考价值,发现的小伙伴们可以参考一下:

Python可以做什么

Python是一种编程语言,内置了许多有效的工具,Python几乎无所不能,该语言通俗易懂,容易入门,功能强大,在许多领域中都有广泛的应用,例如最热门的大数据分析,人工智能,网页开发等。

import os.path 　　得到pdfminer.pdfparser import PDFParser PDFDocument 　　得到pdfminer.pdfinterp import PDFResourceManager PDFPageInterpreter 　　得到pdfminer.converter import PDFPageAggregator 　　得到pdfminer.layout import LTTextBoxHorizontal LAParams 　　得到pdfminer.pdfinterp import PDFTextExtractionNotAllowed 　　class CPdf2TxtManager (): 　　& # 39;才能& # 39;& # 39;& # 39;& # 39; 　　classdocs才能　　& # 39;才能& # 39;& # 39; 　　def 才能__init__(自我): 　　,,,& # 39;& # 39;& # 39;& # 39;& # 39; 　　,,,的构造函数　　,,,& # 39;& # 39;& # 39; 　　def 才能;changePdfToText(自我,,filePath): 　　,,,file =,开放(路径,& # 39;rb # 39;), #,以二进制读模式打开　　,,,#用文件对象来创建一个pdf文档分析器　　,,,praser =, PDFParser(文件) 　　,,,#,创建一个PDF文档　　,,,doc =, PDFDocument () 　　,,,#,连接分析器,与文档对象　　,,,praser.set_document (doc) 　　,,,doc.set_parser(普拉斯) 　　,,,#,提供初始化密码　　,,,#,如果没有密码,就创建一个空的字符串　　,,,doc.initialize () 　　,,,#,检测文档是否提供txt转换,不提供就忽略　　,,,if not doc.is_extractable: 　　,,,,,raise PDFTextExtractionNotAllowed 　　,,,#,创建PDf 资源管理器,来管理共享资源　　,,,rsrcmgr =, PDFResourceManager () 　　,,,#,创建一个PDF设备对象　　,,,laparams =, LAParams () 　　,,,device =, PDFPageAggregator (rsrcmgr, laparams=laparams) 　　,,,#,创建一个PDF解释器对象　　,,,interpreter =, PDFPageInterpreter (rsrcmgr,设备) 　　,,,pdfStr =, & # 39; & # 39; 　　,,,#,循环遍历列表,每次处理一个页面的内容　　,,,for page 拷贝doc.get_pages ():, #, doc.get_pages(),获取页面列表　　,,,,,interpreter.process_page(页面) 　　,,,,,#,接受该页面的LTPage对象　　,,,,,layout =, device.get_result () 　　,,,,,#,这里的布局是一个LTPage对象,里面存放着,这个页面解析出的各种对象,一般包括LTTextBox,, LTFigure,, LTImage,, LTTextBoxHorizontal 等等,想要获取文本就获得对象的文本属性, 　　,,,,,for x 拷贝布局: 　　,,,,,,,if (isinstance (x), LTTextBoxHorizontal)): 　　,,,,,,,,,pdfStr =, pdfStr +, x.get_text (), +, & # 39; \ n # 39; 　　,,,fileNames =, os.path.splitext (filePath) 　　,,,file2 =,开放(文件名[0],+,& # 39;. txt # 39;, & # 39; wb # 39;) #保存这些内容　　,,,file2.write (pdfStr.encode ()) 　　,,,file2.close () 　　,,,file.close () 　　if __name__ ==, & # 39; __main__ # 39;: 　　& # 39;才能& # 39;& # 39;& # 39;& # 39; 　　,才能解析pdf 文本,保存到txt文件中　　& # 39;才能& # 39;& # 39; 　　path 才能=," # 39;C: \ \用户管理员桌面\ \《精力管理》。pdf # 39; 　　时间=pdf2TxtManager 才能;CPdf2TxtManager () 　　pdf2TxtManager.changePdfToText才能(路径)

以上就是小编为大家收集整理的使用Python怎么将pdf文档转换成txt文档,如何觉得网站的内容还不错,欢迎将网站推荐给身边好友。