程序员开发实例大全宝库

网站首页 > 编程文章 正文

Python OCR 文字识别的应用(python ocr识别图片)

zazugpt 2024-08-22 04:40:18 编程文章 15 ℃ 0 评论

你也许听说过使用Python进行OCR(Optical Character Recognition)文字识别。关于OCR的库有很多,最著名的库是google赞助的tesseract。使用它在图像上执行OCR很简单。

安装tesseract-ocr

github地址: https://github.com/tesseract-ocr/tesseract

windows:下载下面其中一个安装包,我用4.0

tesseract-ocr-setup-4.00.00dev.exe (experimental).

如果需要更多语言支持,去项目首页:https://github.com/tesseract-ocr,查看wiki。假设我要加入简体中文支持,去https://github.com/tesseract-ocr/tessdata,下载对应的训练数据:

github地址: https://github.com/tesseract-ocr/tesseract

windows:下载下面其中一个安装包,我用4.0

我们还需要安装PIL和pytesseract库。 PIL:(Python Imaging Library)是Python平台上的图像处理标准库,功能非常强大。 pytesseract:图像识别库。

我这里使用的是python3.6,PIL不支持python3所以使用如下命令

pip install pytesseract
pip install pillow

可以通过tesseract --help-psm 查看psm

接下来我们看一下配置好一切的正确结果,来一个test.py文件来验证识别效果。

from PIL import Image
import pytesseract
Image = Image.open('2.png') # 打开图片
text = pytesseract.image_to_string(Image,lang='chi_sim') #使用简体中文解析图片
print(text)

结果可能不是会很满意,有很多乱码,但是已经达到了效果,后续就是继续不断的学习训练了。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表