使用Python怎么将pdf文档转换成txt文档

  介绍

这篇文章主要为大家详细介绍了使用Python怎么将pdf文档转换成txt文档,文中示例代码介绍的非常详细,具有一定的参考价值,发现的小伙伴们可以参考一下:

Python可以做什么

Python是一种编程语言,内置了许多有效的工具,Python几乎无所不能,该语言通俗易懂,容易入门,功能强大,在许多领域中都有广泛的应用,例如最热门的大数据分析,人工智能,网页开发等。

import  os.path   得到pdfminer.pdfparser  import  PDFParser PDFDocument   得到pdfminer.pdfinterp  import  PDFResourceManager PDFPageInterpreter   得到pdfminer.converter  import  PDFPageAggregator   得到pdfminer.layout  import  LTTextBoxHorizontal LAParams   得到pdfminer.pdfinterp  import  PDFTextExtractionNotAllowed   class  CPdf2TxtManager ():   & # 39;才能& # 39;& # 39;& # 39;& # 39;   classdocs才能   & # 39;才能& # 39;& # 39;   def 才能__init__(自我):   ,,,& # 39;& # 39;& # 39;& # 39;& # 39;   ,,,的构造函数   ,,,& # 39;& # 39;& # 39;   def 才能;changePdfToText(自我,,filePath):   ,,,file =,开放(路径,& # 39;rb # 39;), #,以二进制读模式打开   ,,,#用文件对象来创建一个pdf文档分析器   ,,,praser =, PDFParser(文件)   ,,,#,创建一个PDF文档   ,,,doc =, PDFDocument ()   ,,,#,连接分析器,与文档对象   ,,,praser.set_document (doc)   ,,,doc.set_parser(普拉斯)   ,,,#,提供初始化密码   ,,,#,如果没有密码,就创建一个空的字符串   ,,,doc.initialize ()   ,,,#,检测文档是否提供txt转换,不提供就忽略   ,,,if  not  doc.is_extractable:   ,,,,,raise  PDFTextExtractionNotAllowed   ,,,#,创建PDf 资源管理器,来管理共享资源   ,,,rsrcmgr =, PDFResourceManager ()   ,,,#,创建一个PDF设备对象   ,,,laparams =, LAParams ()   ,,,device =, PDFPageAggregator (rsrcmgr, laparams=laparams)   ,,,#,创建一个PDF解释器对象   ,,,interpreter =, PDFPageInterpreter (rsrcmgr,设备)   ,,,pdfStr =, & # 39; & # 39;   ,,,#,循环遍历列表,每次处理一个页面的内容   ,,,for  page 拷贝doc.get_pages ():, #, doc.get_pages(),获取页面列表   ,,,,,interpreter.process_page(页面)   ,,,,,#,接受该页面的LTPage对象   ,,,,,layout =, device.get_result ()   ,,,,,#,这里的布局是一个LTPage对象,里面存放着,这个页面解析出的各种对象,一般包括LTTextBox,, LTFigure,, LTImage,, LTTextBoxHorizontal 等等,想要获取文本就获得对象的文本属性,   ,,,,,for  x 拷贝布局:   ,,,,,,,if  (isinstance (x), LTTextBoxHorizontal)):   ,,,,,,,,,pdfStr =, pdfStr  +, x.get_text (), +, & # 39; \ n # 39;   ,,,fileNames =, os.path.splitext (filePath)   ,,,file2 =,开放(文件名[0],+,& # 39;. txt # 39;, & # 39; wb # 39;) #保存这些内容   ,,,file2.write (pdfStr.encode ())   ,,,file2.close ()   ,,,file.close ()   if  __name__ ==, & # 39; __main__ # 39;:   & # 39;才能& # 39;& # 39;& # 39;& # 39;   ,才能解析pdf 文本,保存到txt文件中   & # 39;才能& # 39;& # 39;   path 才能=," # 39;C: \ \用户管理员桌面\ \《精力管理》。pdf # 39;   时间=pdf2TxtManager 才能;CPdf2TxtManager ()   pdf2TxtManager.changePdfToText才能(路径)

以上就是小编为大家收集整理的使用Python怎么将pdf文档转换成txt文档,如何觉得网站的内容还不错,欢迎将网站推荐给身边好友。

使用Python怎么将pdf文档转换成txt文档