Python反爬解决方案

爬虫知识

图片识别引擎

Tesseract，一款由HP实验室开发由Google维护的开源OCR引擎，特点是开源，免费，支持多语言，多平台

linux环境下的安装

1	`sudo apt-get install tesseract-ocr`

mac环境下直接执行命令

1	`brew install --with-training-tools tesseract`

windows环境下的安装

可以通过exe安装包安装，下载地址可以从GitHub项目中的wiki找到。安装完成后记得将Tesseract 执行文件的目录加入到PATH中，方便后续调用。

2 Python库的安装

# PIL用于打开图片文件
pip3 install pillow

# pytesseract模块用于从图片中解析数据
pip3 install pytesseract

通过pytesseract模块的 image_to_string 方法就能将打开的图片文件中的数据提取成字符串数据，具体方法如下

from PIL import Image
import pytesseract

im = Image.open()

result = pytesseract.image_to_string(im)

print(result)

其他ocr平台

~~云打码：http://www.yundama.com/~~，（已失效）能够解决通用的验证码识别

~~极验验证码智能识别辅助：http://jiyandoc.c2567.com/~~，（已失效）能够解决复杂验证码的识别

2020

#Python #爬虫