小编给大家分享一下如何安装Python3爬虫利器tesserocr,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获、下面让我们一起去了解一下吧!
在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别。
<强> 1。OCR 强>
OCR,即光学字符识别,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。
例如,对于如图22页和图1所示的验证码,我们可以使用OCR技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验证码的过程。
图22页验证码
图1验证码
tesserocr是Python的一个OCR识别库,但其实是对超正方体做的一层Python API封装,所以它的核心是超正方体,因此,在安装tesserocr之前,我们需要先安装超正方体。
<强> 2。相关链接强>
tesserocr GitHub: https://github.com/sirfz/tesserocr
tesserocr PyPI: https://pypi.python.org/pypi/tesserocr
超正方体下载地址:http://digi.bib.uni-mannheim.de/tesseract
超正方体GitHub: https://github.com/tesseract-ocr/tesseract
超正方体语言包:https://github.com/tesseract-ocr/tessdata
超正方体文档:https://github.com/tesseract-ocr/tesseract/wiki/Documentation
<强> 3。Windows下的安装强>
在Windows下,首先需要下载超正方体,它为tesserocr提供了支持。
进入下载页面,可以看到有各种. exe文件的下载列的表,这里可以选择下载3.0版本。图24所示为3.05版本。
图上皮下载页面
其中文件名中带有开发的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-3.05.01。exe .
下载完成后双击,此时会出现如图1 - 25所示的页面。
图1 - 25安装页面
此时可以勾选额外的语言数据(下载)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击下按钮即可。
接下来,再安装tesserocr即可,此时直接使用脉冲安装:
pip3 install tesserocr 枕头
<强> 4。Linux下的安装强>
对于Linux来说,不同系统已经有了不同的发行包了,它可能叫作tesseract-ocr或者超正方体,直接用对应的命令安装即可。
<强> Ubuntu, Debian和深化版的强>
在Ubuntu, Debian和深化版的系统下,安装命令如下:
sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev
<强> CentOS, Red Hat 强>
在CentOS和红帽系统下,安装命令如下:
yum install -y 超正方体
在不同发行版本运行如上命令,即可完成超正方体的安装。
安装完成后,便可以调用超正方体命令了。
接着,我们查看一下其支持的语言:
tesseract ——list-langs
运行结果示例:
List of available languages (3): 英格 osd 装备的
结果显示它只支持几种语言,如果想要安装多国语言,还需要安装语言包,官方叫作tessdata(其下载链接为:https://github.com/tesseract-ocr/tessdata)。
利用Git命令将其下载下来并迁移到相关目录即可,不同版本的迁移命令如下所示。
在Ubuntu, Debian和深化版的系统下的迁移命令如下:
git clone https://github.com/tesseract-ocr/tessdata.git sudo mv  tessdata/*,/usr/share/tesseract-ocr/tessdata
在CentOS和红帽系统下的迁移命令如下:
git clone https://github.com/tesseract-ocr/tessdata.git sudo mv  tessdata/*,/usr/share/超正方体tessdata如何安装Python3爬虫利器tesserocr