共计 1350 个字符,预计需要花费 4 分钟才能阅读完成。
无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈 python 中光学识别验证码模块 tesserocr 和 pytesseract。tesserocr 和 pytesseract 是 Python 的一个 OCR 识别库,但其实是对 tesseract 做的一层 Python API 封装,pytesseract 是 Google 的 Tesseract-OCR 引擎包装器;所以它们的核心是 tesseract, 因此在安装 tesserocr 之前,我们需要先安装 tesseract。
下载安装
下载地址:https://digi.bib.uni-mannheim…
下载完成后,双击安装,可以勾选 Additional language data(download) 选项来安装 OCR 识别支持的语言包,但下载语言包实在是慢,我们可以直接从 https://github.com/tesseract-… 下载 zip 的语言包压缩文件,解压后将 tessdata-master 中的文件复制到 Tesseract 的安装目录 C:\Program Files (x86)\Tesseract-OCR\tessdata 目录下,最后我们配置下环境变量,我们将 C:\Program Files (x86)\Tesseract-OCR 添加到环境变量中。进入命令提示符,输入 tesseract,显示下图结果,说明配置完成
查看安装了的语言包:tesseract –list-langs
显示我一共安装了 167 种语言包,里边包含英文或者其他字符。
测试
实验用的二维码
基本使用语法 tesseract image.png result(tesseract 图片名称 生成文件名称)
结果
由结果来看,识别出来了 P、2 和 X,但是把 C 识别成了 G,识别度还是比较高,接下来看在 python 中的使用
python 引入 tesseract
在 python 下使用 pip 命令即可完成下载安装 pip install pytesseract
识别验证码脚本
import pytesseract
from PIL import Image
im=Image.open(‘pin.png’)
print(pytesseract.image_to_string(im))
结果
这样识别的结果同样跟上文一样,个别字符识别的不是很准确
图像处理
现在网站上的二维码设计的通常很难复杂,如果直接识别的话很难识别出来,下面这段代码是进行灰度处理和二值化
import pytesseract
from PIL import Image
im=Image.open(‘5.jpg’)
#进行置灰处理
im=im.convert(‘L’)
#这个是二值化阈值
threshold=150
table=[]
for i in range(256):
if i<threshold:
table.append(0)
else:
table.append(1)
#通过表格转换成二进制图片,1 的作用是白色,0 就是黑色
im=im.point(table,”1″)
im.show()
print(pytesseract.image_to_string(im))
原图
置灰和二值化后
想要提高识别率只能下载训练好的语言包,如上述所说,或者用深度学习的方法训练机器原文地址:https://nolon.xyz/archives/77/