Python OCR 文字识别的应用（python ocr识别图片）

zazugpt 2024-08-22 04:40:18 编程文章 15 ℃ 0 评论

你也许听说过使用Python进行OCR（Optical Character Recognition）文字识别。关于OCR的库有很多，最著名的库是google赞助的tesseract。使用它在图像上执行OCR很简单。

安装tesseract-ocr

github地址: https://github.com/tesseract-ocr/tesseract

windows:下载下面其中一个安装包，我用4.0

tesseract-ocr-setup-4.00.00dev.exe (experimental).

如果需要更多语言支持，去项目首页：https://github.com/tesseract-ocr，查看wiki。假设我要加入简体中文支持，去https://github.com/tesseract-ocr/tessdata，下载对应的训练数据：

github地址: https://github.com/tesseract-ocr/tesseract

windows:下载下面其中一个安装包，我用4.0

我们还需要安装PIL和pytesseract库。 PIL：（Python Imaging Library）是Python平台上的图像处理标准库，功能非常强大。 pytesseract：图像识别库。

我这里使用的是python3.6，PIL不支持python3所以使用如下命令

pip install pytesseract
pip install pillow

可以通过tesseract --help-psm 查看psm

接下来我们看一下配置好一切的正确结果，来一个test.py文件来验证识别效果。

from PIL import Image
import pytesseract
Image = Image.open('2.png') # 打开图片
text = pytesseract.image_to_string(Image,lang='chi_sim') #使用简体中文解析图片
print(text)

结果可能不是会很满意，有很多乱码，但是已经达到了效果，后续就是继续不断的学习训练了。

网站首页 > 编程文章正文

Python OCR 文字识别的应用（python ocr识别图片）

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 编程文章 正文

Python OCR 文字识别的应用（python ocr识别图片）

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 编程文章正文

取消回复欢迎你发表评论: