- 前言
- 很早之前做的验证码是图形的,后面图像识别越来越厉害了
1.png
- 在OCR文字识别的加持下
- 它们对扭曲字符的识别率,狂升至90%以上甚至远超真人
- 后面我就做了邮箱验证码的功能,如果邮箱不存在,也收不到验证码
2.png
- 还有就是为什么有邮箱验证码了还要搞这个?🤔
- 虽然我限制了每一个邮箱以及ip每天的发送次数
- 但是仍然会有一些熊孩子用爬虫时不时的来请求邮箱验证码
- 或者输入一些不存在的邮箱或者临时邮箱来获取验证码
- 对于邮箱是否存在我是通过dns查询该MX记录是否存在来验证
- 但查询MX记录也不是个可靠方法,毕竟也是没有办法真真正正的知道这个邮箱是否存在
- 导致仍然会出现退信的邮件
- 对于临时邮箱,我目前正在维护一个临时邮箱的数据
- 如果是临时邮箱我会直接拦截,并且我会经常更新该数据的
3.png
- 这样子其实也可以防范一些垃圾爬虫,后面闲着无聊就研究了一下行为验证
- 我开直播写这个功能的时候,也有人说为什么不用成熟的产品
4.png
- 这说的是我实在是笑死了🤣,那为什么现在到处都有餐厅了
- 为什么还要在家里面做饭吃?做它干嘛?😏
- 再说了你确定这种东西开源就非常安全嘛?
- 开源的不安全,要保证别人不知道算法很难
- 如果分析一下你的源代码轻轻松松就知道任何绕过去
- 如果自己去改人家的算法,那跟自己写又有什么区别🤔
- 如果你觉得非常安全的话我们来看一下我所遇见了两个开源行为验证
- 这里因为我只做了旋转验证,所以以下的两个验证码都使用旋转验证做参考
- 第一个
5.png
- 看一下请求的图片
- 背景图片
6.png
- 旋转图片
7.png
- 到目前为止应该都有人知道问题的所在了
- 就是很明显这个旋转图片是直接可以通过背景图片的相似度直接进行匹配出来
- 因为它截取出来的旋转图片根本就没有去除,你可以非常明显的看出来
- 旋转的图片跟背景图片的截取位置,因为他给出来的背景图片就是一个完整的图片
- 一般的处理方法都是直接抠掉那个旋转图片的位置,防止通过相似度直接进行匹配出来
8.png
- 再接着向下调试看一下发包有没有什么加密的信息
9.png
- 很简单就一个控件的key跟旋转角度,key是直接上一次服务器返回的
- 这个根本就不符合行为验证,只靠旋转角度根本就没有用,相当于就做了一个皮毛
- 前面都还说了,他直接返回背景图片就是一个完整的图片
- 直接就可以推了,都不需要更加复杂的逆向
- 第二个
10.png
- 看一下请求的背景图
11.png
- 很明显这个做的安全性就比前面那个好,再看一下发包的参数
12.png
- 很明显这种才符合行为验证的思路
- 是不是觉得这个行为验证就挺不错不需要直接写了鸭
- 很明显他还有一个非常直关的问题,第一点就是
- 他直接将logo也放在组件中了,可能大家觉得并没有什么问题
- 是的,但是在这个验证组件中很明显有问题,生怕别人不知道是用这个开源的做出来的
- 那些小屁孩那就直接可以通过这个logo知道是这个开源组件做出来的了
- 直接去看源码就可以知道如何绕过该验证了,如果是闭源的有logo那确实是无所谓的
- 第二个问题,我们上面说了他图片是打乱的,但是我们可以查看这个请求
13.png
- 发现标头是个图片
14.png
- 查看内容
15.png
- 细心的人可能发现了,他这个居然没有加密
- 验证做了加密,但是请求验证码所返回的信息居然没有加密
- 这么看不太直接,我美化一下给你们看就直接了
16.png
- 所以这个切片图跟没有切是一样的,位置信息都在里面并且没有加密
- 也不需要更加复杂的逆向,直接就可以拼接出来验证码信息
- 也就是发送验证的时候需要进行逆向
- 开发
- 前面说了这么多也证明了开源的问题所在,并且完完全全依靠开源的作者更新来保证算法的问题
- 但毕竟开源了那么算法也很快就有破解的方法,于是我才自行进行开发这个组件
- 从2025-03-30实现行为验证码的基础框架到现在已经基本上完善
- 我是三天晒网,两天打渔,这一点可以通过我的更新贡献图看出来
- 所以说起来可能就半个月🤫开发出来的
- 主要采用决策树、神经网络、支持向量机等算法,通过特征工程提取用户行为中的关键指标
- 通过机器学习算法对用户行为进行分类
17.png
18.png
19.png
20.png
- 并且参考了人家的做法我也将图片进行打乱切割
- 不过不同的是,我是连切割的图片也随机了,而不是像人家一样固定的
21.png
22.png
- 安全
- 行为验证码的核心在于对用户行为数据的实时采集和分析,数据都是从前端采集的
- 然后将这些数据传输到后端进行分析。后端通过预先训练好的机器学习模型
- 对这些数据进行匹配和判断,从而确定用户的行为模式是否符合正常人类行为
- 但是众所周知前端的信息都不能相信,很容易出现伪造的信息导致通过验证
- 当然了因为行为验证仍然会被破解,所以现在仍然搭配着邮箱验证码进行双验证来配套使用
- 如果你使用我这个接口应当可以使用一些像什么手机短信,手机语音电话等方法进行兜底
- 如果你看过我这个组件的调用方法就后发现,我留下了一个图片的URL来生成验证信息
- 并且在注意事项在明确的写着像其他公司那个样子使用AI生成的图片
- 这是为什么?破解者会通过脚本把验证码图片都爬取下来,来进行数据分析
- 使用静态图库作为验证码图片时,图库更新一周以后
- 爬虫的拦截防御能力会出现明显的效果衰减,一个月左右,恶意爬虫通过率会达到20%以上
- 图片越少,出现的次数越多,黑灰产破解成本越少
- 使用静态图库时,因为验证码图集有限
- 攻击者只需定期爬取主题图片,然后针对性地打标训练新的识别模型,就可快速破解
- 并且使用静态图库时,需要定时更新图库,每次更新图片几百到几千张来保证防御能力
- 如果AI生成图片的话,那么图片将是无穷无尽的且不需要定时更新
- AI可以每分钟以上万张的速度更新,让破解者跟不上验证码图库的更新速度
- 从而极大程度降低验证码破解的准确率
- 关于人工打码的话, 我也会采集验证环境信息判断是否为打码平台
- 破解一张图片验证码需要2.5秒,花费0.0019美刀
- 208.33小时,582.3美元,就可以获得30万张的验证码答案的数据库
- 所以也不要把验证码看的过于重要,应该与其他安全技术形成互补,共同构建起全面的防护体系
- 参考
- I'm not a human: Breaking the Google reCAPTCHA
- creation and breaking techniques.Archivesof Computational Methods in Engineering
- AnEmpiricalStudy&Evaluationof Modern [CAPTCHAs]
【我用了一个月的时间开发了个行为验证的组件】
qaq卟言
闲聊
完结
回复给❌取消回复
自动补充