在爬虫的过程中,难免会遇到各种验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别。OCR(optical character recognition):光学字符识别。是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。tesserocr是python的一个OCR识别库,但其实是对tesseract做的一层pythonAPI封装,所以它的核心是tesseract,因此在安装tesserocr之前,我们需要先安装tesseract。
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
进入到下载页面,可以看到各种.exe文件的下载列表,其中,文件名带有dev的为开发版本,不带dev的为稳定版本,可以选择不带dev的版本,这里选择版本为3.05.01,如下图所示:
安装步骤:
记得勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR可以识别多国语言。
接下来再安装tesserocr即可,命令:pip3 install tesserocr pillow
现在开始验证安装,可以使用tesseract和tesserocr来分别进行测试。
意外:使用上述命令安装tesserocr 失败:
下载:tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases
使用命令:pip install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 进行安装
如果遇到:RuntimeError: Failed to init API, possibly an invalid tessdata path:
请参考文章:Python3.6安装使用tesserocr文件时遇到问题_ NewJune_博客园(百度就有)
验证安装:(图片下载地址:)
https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.p
本文暂时没有评论,来添加一个吧(●'◡'●)