如何安装Python3爬虫利器tesserocr - 行业资讯 - 肥雀云

　　介绍

小编给大家分享一下如何安装Python3爬虫利器tesserocr,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获、下面让我们一起去了解一下吧!

在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别。

<强> 1。OCR

OCR,即光学字符识别,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。

例如,对于如图22页和图1所示的验证码,我们可以使用OCR技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验证码的过程。

图22页验证码

图1验证码

tesserocr是Python的一个OCR识别库,但其实是对超正方体做的一层Python API封装,所以它的核心是超正方体,因此,在安装tesserocr之前,我们需要先安装超正方体。

<强> 2。相关链接

tesserocr GitHub: https://github.com/sirfz/tesserocr

tesserocr PyPI: https://pypi.python.org/pypi/tesserocr

超正方体下载地址:http://digi.bib.uni-mannheim.de/tesseract

超正方体GitHub: https://github.com/tesseract-ocr/tesseract

超正方体语言包:https://github.com/tesseract-ocr/tessdata

超正方体文档:https://github.com/tesseract-ocr/tesseract/wiki/Documentation

<强> 3。Windows下的安装

在Windows下,首先需要下载超正方体,它为tesserocr提供了支持。

进入下载页面,可以看到有各种. exe文件的下载列的表,这里可以选择下载3.0版本。图24所示为3.05版本。

图上皮下载页面

其中文件名中带有开发的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-3.05.01。exe .

下载完成后双击,此时会出现如图1 - 25所示的页面。

图1 - 25安装页面

此时可以勾选额外的语言数据(下载)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击下按钮即可。

接下来,再安装tesserocr即可,此时直接使用脉冲安装:

pip3 install tesserocr 枕头

<强> 4。Linux下的安装

对于Linux来说,不同系统已经有了不同的发行包了,它可能叫作tesseract-ocr或者超正方体,直接用对应的命令安装即可。

<强> Ubuntu, Debian和深化版的

在Ubuntu, Debian和深化版的系统下,安装命令如下:

sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

<强> CentOS, Red Hat

在CentOS和红帽系统下,安装命令如下:

yum install -y 超正方体

在不同发行版本运行如上命令,即可完成超正方体的安装。

安装完成后,便可以调用超正方体命令了。

接着,我们查看一下其支持的语言:

tesseract ——list-langs

运行结果示例:

List of available languages (3): 　　英格　　osd 　　装备的

结果显示它只支持几种语言,如果想要安装多国语言,还需要安装语言包,官方叫作tessdata(其下载链接为:https://github.com/tesseract-ocr/tessdata)。

利用Git命令将其下载下来并迁移到相关目录即可,不同版本的迁移命令如下所示。

在Ubuntu, Debian和深化版的系统下的迁移命令如下:

git clone https://github.com/tesseract-ocr/tessdata.git 　　sudo mv tessdata/*,/usr/share/tesseract-ocr/tessdata

在CentOS和红帽系统下的迁移命令如下:

git clone https://github.com/tesseract-ocr/tessdata.git 　　sudo mv tessdata/*,/usr/share/超正方体tessdata