程序员开发实例大全宝库

网站首页 > 编程文章 正文

python爬虫之tesserocr安装(tesseract-ocr python)

zazugpt 2024-08-22 04:39:49 编程文章 20 ℃ 0 评论

在爬虫的过程中,难免会遇到各种验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别。OCR(optical character recognition):光学字符识别。是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。tesserocr是python的一个OCR识别库,但其实是对tesseract做的一层pythonAPI封装,所以它的核心是tesseract,因此在安装tesserocr之前,我们需要先安装tesseract。

下载地址:https://digi.bib.uni-mannheim.de/tesseract/

进入到下载页面,可以看到各种.exe文件的下载列表,其中,文件名带有dev的为开发版本,不带dev的为稳定版本,可以选择不带dev的版本,这里选择版本为3.05.01,如下图所示:

安装步骤:

记得勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR可以识别多国语言。

接下来再安装tesserocr即可,命令:pip3 install tesserocr pillow

现在开始验证安装,可以使用tesseract和tesserocr来分别进行测试。

意外:使用上述命令安装tesserocr 失败:

下载:tesserocr-2.2.2-cp36-cp36m-win_amd64.whl

地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases

使用命令:pip install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 进行安装

如果遇到:RuntimeError: Failed to init API, possibly an invalid tessdata path:

请参考文章:Python3.6安装使用tesserocr文件时遇到问题_ NewJune_博客园(百度就有)

验证安装:(图片下载地址:)

https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.p

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表