你也许听说过使用Python进行OCR(Optical Character Recognition)文字识别。关于OCR的库有很多,最著名的库是google赞助的tesseract。使用它在图像上执行OCR很简单。
安装tesseract-ocr
github地址: https://github.com/tesseract-ocr/tesseract
windows:下载下面其中一个安装包,我用4.0
tesseract-ocr-setup-4.00.00dev.exe (experimental).
如果需要更多语言支持,去项目首页:https://github.com/tesseract-ocr,查看wiki。假设我要加入简体中文支持,去https://github.com/tesseract-ocr/tessdata,下载对应的训练数据:
github地址: https://github.com/tesseract-ocr/tesseract
windows:下载下面其中一个安装包,我用4.0
我们还需要安装PIL和pytesseract库。 PIL:(Python Imaging Library)是Python平台上的图像处理标准库,功能非常强大。 pytesseract:图像识别库。
我这里使用的是python3.6,PIL不支持python3所以使用如下命令
pip install pytesseract pip install pillow
可以通过tesseract --help-psm 查看psm
接下来我们看一下配置好一切的正确结果,来一个test.py文件来验证识别效果。
from PIL import Image import pytesseract Image = Image.open('2.png') # 打开图片 text = pytesseract.image_to_string(Image,lang='chi_sim') #使用简体中文解析图片 print(text)
结果可能不是会很满意,有很多乱码,但是已经达到了效果,后续就是继续不断的学习训练了。
本文暂时没有评论,来添加一个吧(●'◡'●)