验证码就是用来反制机器和爬虫的,如果验证码能让你的自动化爬虫轻松绕过,那还能叫验证码么?楼主还是先搞清楚验证码是个怎么机制,再来看看是否真如你想象中能够轻松绕过.总而言之,除非人家网站的验证码实现有漏洞,否则你是无法绕过验证码机制的,你只能识别出验证码上的文字,比如OCR(Optical Character Recognition)技术就是用来解决这个问题的.OCR是指电子设备(如扫描仪)检查纸上打印的字符.通过检测暗/亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程.
验证码识别基本步骤:
1.预处理
2.灰度化
3.二值化
4.去噪
5.分割
6.识别
总而言之,验证码识别门槛高,成本也高,避无可避.
比如下图,验证码东倒西歪,还重叠,识别起来有难度.
与恶龙缠斗过久,自身亦成为恶龙;凝视深渊过久,深渊将回以凝视…