`
alex8946
  • 浏览: 359144 次
  • 性别: Icon_minigender_1
  • 来自: 广东广州
社区版块
存档分类
最新评论

验证码的破解思路!

阅读更多
研究了3天验证码破解!
 尝试了好多种方法,都以失败告终!
 不过最后还是在我不断的努力下!成功完成对验证码图片的数字化读取!
 测试了一下,正确率在85%以上,还算不错!
 总结一下自己的思路过程!
 1.用PHP读取验证码图片上每个像素的色彩值!
 2.将验证码边框上的色彩变为白色
 3.用循环方法,去除背景上的色彩杂点,将数字部分的颜色改为000000
 接着就是对图像的读取了!
   (1)分割统计点数法
       将图片分割为4个部分,每个部分对应验证码的一个数字
       然后根据黑色点数的范围来确定是什么数字
       123456789 对应的点数应该有所不同!
       结果:失败
       原因:因为生成的验证码图片,数字的点数并不是总是固定!色彩的灰度等级影响了数字对应的点数!但是能判断出一个数字!就是1 因为1 的点数最少!
   (2)细化分割
       在上一种想法的基础上,将每个部分,又划分为4个小部分,通过对比每4个小部分的点数比,来确定是什么数字
       结果:失败
       原因:生成的验证码图片中的数字,会随机产生一个倾斜角度,所以在划分的4个小区域内,点数比,很难有规律!基本上还是只能确定1,还有7,但是很容易出错,那是相当的不准确啊
   (3)发送假的SessionID
       抓包发现咧,一个固定的SessionID对应一个固定的验证码,假如我伪造COOKIES中的SessionID的值,是不是就是总是可以使用那个验证码呢?
       结果:失败
       原因:因为当你使用完了一个验证码后,服务器又会将SessionID与一个新的验证码对应上!即使你还是使用这个 SessionID,但是验证码已经过期了!
  (4)积累数据库数据,对比分析法
       将验证码图片上的像素如第一种方法那样分为4个部分,不同的是,也不数什么点数了!直接将每个部分的色彩转化为一个长字符串,黑色用0表示,白色用1表示,这样,对于一个图片,可以得到4个色彩字符串,然后将这个数据与对应的验证码上的数字,存入数据库中!
      然后就是不断的积累数据库中的色彩字符串!
      我积累了1100条数据!
      然后需要查询的图片数据,发送给PHP文件,然后在数据库中,查找对比,用PHP中的levenshtein函数比较2个色彩字符串的相似程度!找出与数据库中最相近的一个色彩字符串,这样就可以确定是什么数字了!
     当数据库越大,查询速度也就越慢,但是越准确!
     结果:当然是成功咯!
 
   之前,在网上看到了一篇关于验证码破解的文章!
   思路 和我最后一个方法很像!不过用到的东西不一样!
   原文如下:
 -------------------------------------------------------------------

前些时候我制作了《百度贴吧群发》,可以自动换IP、并且自动更换关键字、标题、内容、图片,
过了几天以后百度贴吧增加了验证码,所以这个程序也用不了了。

今天好奇研究了一下百度的验证码,做了一个新的程序,做这个程序的目的完全是研究技术。
我不会去贴吧发广告,也请大家不要去发广告。


授人以鱼不如授人以渔,下面我简单介绍一下破解验证码的过程。

一、序
大家知道,破解验证码、图文识别都是技术开发的难题,人眼能轻易分别的字符,计算机却需要大量的计算,而且结果很难做到准确。就算是用C++来做,也是很费劲很难得到好的效果。不过在这里我们使用模拟精灵,可以很简单的完成图文识别,模拟精灵虽然大小不足1M、而且是绿色软件完全独立运行,却内置了大部份常用的类库,如模拟编程、WEB编程、windows编程、图像编程都可以轻松实现

二、下载验证码样本

打开c:\test文件夹,选“查看缩略图”,然后重复运行下面的LAScript脚本(每次更换验证码的网址),下载百度贴吧的所有验证码并存为样本,例如图片一,就改名为1.jpg

img = image.new();
--下载图像,没有后缀名要显示指定*.bmp格式
img:getURL("/Article/UploadFiles/200508/20050831203413603.jpg")
image.corp(img, 9 ,0 , 41 , 20 )
img:save("c:\\test\\test.jpg") --保存到硬盘

--折分图片,指定一行四列
img2,img3,img4,img5 = img:split(1,4);

img2:save("c:\\test\\0001.jpg")
img3:save("c:\\test\\0002.jpg")
img4:save("c:\\test\\0003.jpg")
img5:save("c:\\test\\0004.jpg")

image.del(img);

 

三、生成验证码样本数据库

运行下面的脚本,把所有的验证码样本保存到ApeML数据岛

codeKey ={};
--添加所有数字键
for i =0,9,1 do
codeKey[""..i] = 0; --这里我们用字符串连接的方法把数字转换为字符串
end;

--k参数为键,v参数表示值 一个典型的table迭代器回调函数
loadCodeKey = function(k,v)
local img = image.new();
img:load("C:\\test\\"..k..".jpg")
codeKey[k]= string.encode( img:getBytes("*.jpg") , ""); --因为转换到字符串还是二进制,所以用base64进行编码
image.del(img);
end;

--遍历表codekey的所有元素,调用loadcodekey加载图片文件
table.foreach (codeKey, loadCodeKey);

--把所有图片保存到数据岛,
ape:saveTable(codeKey,"验证码样本")

四、识别验证码

运行下面的脚本测试一下


--从数据区块读取base64编码的图片数据
codekey = ape:loadTable("验证码样本");
imgBinKey = {}; --这是一个图像数组,用来储存还原后的验证码样本的图片数据
--必须进行一个转换,因为codekey里面只是base64编码的普通字符串,而imgBinKey 将是真正的图片对象(二进制数据)

--还原到图片对象
toImage = function(k,v)
local img9 = image.new();
img9:setBytes( string.decode( v ,"") ,"*.jpg");
imgBinKey[k] = img9;
end;
table.foreach(codekey,toImage);

--下载验证码图片
imgD = image.new();
if (imgD:getURL("/Article/UploadFiles/200508/20050831203415539.jpg") ~= true) then
win.messageBox("下载图像失败","")
image.del(imgD)
do return false end;
end;

image.corp(imgD, 9 ,0 , 41 , 20 );
--使用split函数分割图片
img2,img3,img4,img5 = imgD:split(1,4);

function test(imgX)
limit = 1;
chr = "";
win.messagePrint("正在检测图片,请稍候....")
testimg = function(k,v)

local n = imgX:testX(imgBinKey[k]);
if(nlimit = n;
chr = k.."";
end;
end;
table.foreach(imgBinKey,testimg);
return chr;
end;


win.messageBox("验证码".. test(img2)..test(img3)..test(img4)..test(img5),"")
五、小结
效果很不错,百分百的准确,唯一的遗憾是识别验证码的过程不是很快,在我电脑上估计要30秒左右,不过图像处理是需要一定的时间,基本上不防碍发信息的的效率。

------------------------------------------------------------------------

 

可以看到,上文的作者,最后提到,识别过程,差不多要消耗30秒左右!

我测试了一下自己的程序,读取过程小于 6秒!

不过我破解的验证码 像素少,他破解的百度贴吧的像素复杂!

也没有什么比较价值了!

分享到:
评论
4 楼 javalover1 2012-02-09  
贴出你的代码供大家学习学习啦
3 楼 liaolliso 2011-12-10  
你好,请问你的最后一种方法,怎么从rgb值里 直接将每个部分的色彩转化为一个长字符串,黑色用0表示,白色用1表示的?
2 楼 tant 2011-07-15  
天涯之海 写道
从网页的session里下手好些吧

请问怎样从session里面下手进行破解呢?
1 楼 天涯之海 2010-05-21  
从网页的session里下手好些吧

相关推荐

    基于python实现破解滑动验证码过程解析

    前言: 很多小伙伴们反馈,在web自动化的过程中,经常会被...关于滑动验证码破解的思路大体上来讲就是以下两个步骤: 1、获取滑块滑动的距离 2、模拟拖动滑块,通过验证。 听起来是比较简单,但是获取滑块滑动的距离,

    极验验证码破解流程解释和源码.zip

    这是某网站的极验验证码的破解代码以及破解过程,主要是了解破解极验验证码的思路流程,希望和大家一起学习分享,如果有更好的方法或者途径能够解决这个问题,欢迎一起讨论!

    Python破解BiliBili滑块验证码的思路详解(完美避开人机识别)

    准备工作 ...python3 pip install selenium (webdriver框架) pip install PIL (图片处理) ... B站的滑块验证码如上。...这类验证码可以使用 selenium 操作浏览器拖拽滑块来进行破解,难点两个,一个如

    高级验证码识别_如何识别高级的验证码

    验证码破解的思路,一个总体性的概述,大家可以分段研究

    python滑块验证码的破解实现

    破解滑块验证码的思路主要有2种: 获得一张完整的背景图和一张有缺口的图片,两张图片进行像素上的一一对比,找出不一样的坐标。 获得一张有缺口的图片和需要验证的小图,两张图片进行二极化以及归一化,确定小图...

    胜朝科技验证码识别系统 演示版

    都可在一定程度上实现验证码的作用,但综合考虑实现的成本、用户体验、破解的难度这些因素,目前使用最广泛的是看图识字这种形式,即图形验证码,就是根据图片上的数字、字母,用户再重新输入一遍,这种方式实现较为...

    基于深度学习的验证码破解、对抗与反对抗python实现源码(Jupyter运行)带项目说明.zip

    基于深度学习的验证码破解、对抗与反对抗python实现源码(Jupyter运行)带项目说明.zip 什么是对抗样本 Christian Szegedy等人在ICLR2014发表的论文中,他们提出了对抗样本(Adversarial examples)的概念,即在数据...

    数字验证码识别

    可以自动识别数字验证码,喜欢的朋友请下载研究!这是一个不错的破解验证码思路。

    CV万能验证码识别填写软件 v2019

    都可在一定程度上实现验证码的作用,但综合考虑实现的成本、用户体验、破解的难度这些因素,目前使用最广泛的是看图识字这种形式,即图形验证码,就是根据图片上的数字、字母,用户再重新输入一遍,这种方式实现较为...

    CV全自动图形图片验证码识别软件

    都可在一定程度上实现验证码的作用,但综合考虑实现的成本、用户体验、破解的难度这些因素,目前使用最广泛的是看图识字这种形式,即图形验证码,就是根据图片上的数字、字母,用户再重新输入一遍,这种方式实现较为...

    利用html5 canvas破解简单验证码及getImageData接口应用

    敝校的教务管理系统(貌似不止我们学校用呢),一到... 说下思路:HTML 5中的canvas有个接口getImageData可以用来从验证码图像中取得像素数据。每一个像素有对应r,g,b,a四个值,r,g,b是红绿蓝三色,a是透明度。 观察

    Python 点击指定位置验证码破解的实现代码

    思路: 创建浏览器驱动对象 加载登录页面 等待页面加载完毕 切换到用户名和密码登录模式 输入手机号, 注意此处需要等待并获取输入框 输入密码 点击验证按钮 获取弹出验证图片 使用超级鹰打码平台识别图形的...

    简单验证码识别示例(高手pass)

    简单的验证码识别示例,验证码源地址为:http://www.pvpgame.com.cn/authimg.php,对于复杂的验证码,只要大家细心观察,仔细思考,一定能找到识别的思路。

    python PIL + pyautogui 实现滑块验证 自动识别 滑动

    因为是初学/自学(随便玩玩),代码规范也不太懂,给大家提供一个思路,抛砖引玉。 使用前需要改一改坐标,颜色等参数。代码中有不少调试时的代码,为了方便自己维护,就没删除。让大神们见笑了。

    python模拟哔哩哔哩滑块登入验证的实现

    准备工具 pip3 install PIL pip3 install opencv-python pip3 install numpy 谷歌驱动 建议指定清华源下载速度会更快点 ...谷歌驱动 ...前言 本篇文章采用的是cv2的Canny边缘检测算法进行图像识别匹配。...

    InvoiceSpider:国家税务总局预算发票查验平台|自动化发票查验

    InvoiceSpider是一个可以自动化模拟在查验发票的项目。 停止更新 2020年4月以来,查验平台进行...提供了flwq39的破解思路 更新 2020-04-12增加了关于验证码接口加密数据的解密 2020-05-19停止更新 相关资料 推荐阅读:

    pdd (拼多多) 爬虫 js 解密 anti_content 参数解密及全站抓取代码思路实现.zip

    反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等...

    淘宝秒杀自动下单程序,淘宝秒杀器实现 python的淘宝秒杀抢购下单源码参考

    关于淘宝下单的思路,鉴于淘宝的厉害,相信基本上都是采用的无头浏览器,即selenium驱动浏览器模拟人工提交订单,如果能够破解下单的post参数是最好不过了,暂未研究! 淘宝下单流程: 第一步:登录 发现微博登录...

Global site tag (gtag.js) - Google Analytics