Python反爬解决方案

爬虫知识

图片识别引擎

Tesseract,一款由HP实验室开发由Google维护的开源OCR引擎,特点是开源,免费,支持多语言,多平台

项目地址:https://github.com/tesseract-ocr/tesseract

安装

linux环境下的安装

1
sudo apt-get install tesseract-ocr

mac环境下直接执行命令

1
brew install --with-training-tools tesseract

windows环境下的安装

可以通过exe安装包安装,下载地址可以从GitHub项目中的wiki找到。安装完成后记得将Tesseract 执行文件的目录加入到PATH中,方便后续调用。

2 Python库的安装

1
2
3
4
5
# PIL用于打开图片文件
pip3 install pillow

# pytesseract模块用于从图片中解析数据
pip3 install pytesseract

使用

通过pytesseract模块的 image_to_string 方法就能将打开的图片文件中的数据提取成字符串数据,具体方法如下

1
2
3
4
5
6
7
8
from PIL import Image
import pytesseract

im = Image.open()

result = pytesseract.image_to_string(im)

print(result)

扩展

tesseract简单使用与训练

其他ocr平台

打码平台使用

云打码:http://www.yundama.com/,(已失效)能够解决通用的验证码识别

极验验证码智能识别辅助:http://jiyandoc.c2567.com/,(已失效)能够解决复杂验证码的识别

相关文章

Python基础

Python爬虫

Mongodb和Python交互

Python爬虫

Mongodb和Python交互

Scrapy爬虫

Scrapy爬虫