以下是我破解的几种验证码。
1、最容易破解的验证码
直接使用tesseract库识别。
2、download.csdn的验证码
使用K近邻算法识别。
3、weibo.cn验证码
使用卷积神经网络训练识别。
说明
项目源码:https://github.com/nladuo/cap... (可以帮我点个star(^__^))
开发语言:python(编写爬虫),c++(编写图像处理部分以及机器学习算法)
开发环境:ubuntu 14.04
依赖库:
Python:PIL、BeautifulSoup4、requests
C++:boost、opencv2、tesseract-ocr
环境搭建
安装opencv 2.4.12
sudo apt-get install build-essential cmake libgtk2.0-dev pkg-config python-dev python-numpy libavcodec-dev libavformat-dev libswscale-dev
wget https://codeload.github.com/Itseez/opencv/zip/2.4.12unzip opencv-2.4.12.zip
cd opencv-2.4.12 ; mkdir release ; cd release cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local ..
make -j8
sudo make install
安装tesseract-ocr
sudo apt-get install tesseract-ocr tesseract-ocr-dev
安装boost
sudo apt-get install libboost-dev
安装python的PIL库
sudo apt-get install python-imaging
安装python的BeautifulSoup4、requests库
sudo apt-get install python-pip
sudo pip install bs4
sudo pip install requests
下载项目源码
git clone https://github.com/nladuo/captcha-break.git
代码下载
本节的代码可以通过此处进行下载。
图像直方图
首先看验证码的样子,
可以看到这几个验证码最大的特点就是字母比较深,而周围的背景很浅,把图像转换成黑白颜色,可以显示的更加的明显。
//按黑白读取图像Mat mat = imread("test1.jpg", 0);
cv::imshow("initial_mat", mat);
cv::waitKey(0);
可以看到所有背景的灰度值,都会小于字母的灰度值,为了让tesseract更准确的识别,可以把图像进行二值化,也就是把背景都改成纯白色,把字母都搞成纯黑色。那么如何确定分割的阈值呢?比较好的方法是画出图像的直方图。
//画出直方图Histogram1D histogram1d;
cv::imshow("histogram1d", histogram1d.getHistogramImage(mat));
cv::waitKey(0);
直方图的横坐标代表灰度值,纵坐标代表指定灰度值的点数。
图像阈值
接下来,开始对图像进行阈值,这里选择的灰度值位150,灰度下于150的设置为白色,灰度大于150的设置为黑色。
//阈值Mat threshold_mat;
cv::threshold(mat, threshold_mat, 150, 255, cv::THRESH_BINARY);
cv::imshow("threshold_mat", threshold_mat);
cv::waitKey(0);
Tesseract识别
把图片进行阈值后,就可以进行识别了,直接调用tesseract的API就好了。
//使用tesseract识别char buffer[255];
OCRDecoder decoder;
decoder.decodeGrayMat(threshold_mat, buffer);cout<<"result:"<<buffer<<endl;
运行程序,可以看到识别出了结果:
好文作者:叁公子_KCN
您的每一次评论及转发是我为您提供最精彩的内容的动力,帮转起来,谢谢。
如果您没有关注本 头条号 请先关注。
同时关注微信公众账号:Mobile_Internet (也可以第一时间了解到最新的开发头条资讯。)
本文暂时没有评论,来添加一个吧(●'◡'●)