背景
先说一下背景,今天的这个主题是来源于我之前工作中的实战经历,当时在做一个爬虫项目,遇到了非常牛逼的反爬验证,就是之前提到过的某度指数数据,当时费了九牛二虎之力才用selenium+firefox登录成功,可是好景不长,没过多久就发现登录出现了图形验证码了,像下方这样的,出现这东西总不能手工去输入吧,兵来将挡水来土掩,一言不合就开干!马上就想到了图形的OCR识别技术,这个也不麻烦,有很多现成的OCR框架和接口可以直接用,我这里就用了某度自家的OCR识别接口,上线后发现成功率不是很高,但是多刷几次遇到不太复杂的图像还是可以通过的,所以就这样解决了第一次对抗遇到的问题……
可是过了几个月,每个长假过后,突然发现DB的数据没有更新了,没有新数据入库,那就得去追溯爬虫是不是出问题了。连上线上机器,看了一下,什么时候开始登录给我加了短信验证码。。。。当时有种想骂人的冲动,这么变态。。。没办法继续对抗,出现短信验证码就必须要有一个手机客户端来接收验证码数据了,常规做法那只能写一个手机端的app应用去获取到验证码短信,然后再发送给服务端,然后再填入对应的验证码,登录成功,简单数据流程图如下:
思考
上面的反爬对抗已经到第二阶段了,虽然我用上面的手机接收验证码的方式可以解决短信验证码的问题,可是有没有想过后面还有第三阶段、第四阶段……的对抗,这样搞下去太累了,到最后只会对自己越来越不利,毕竟我们爬虫方是“进攻者”,抗到最后肯定会封我IP,各种折腾。。。所以在一个夜深人静的晚上,思考了一下:为什么会被对方加设各种登录门槛?无非不是对方检测到我的登录行为非常规,可是我已经是用模拟人工操作的selenium去做了,这还能被识别出来,还有其他方法吗?
改进
仔细思考一下,selenium启动浏览器的过程,默认情况下它是加载一个纯净版的浏览器(无插件+无浏览器缓存数据),也许这就是被判断为机器人的依据之一。那么为何启动时不配置上浏览器的本地缓存数据呢?对啊,为什么?想到就了试试:
1、先人工打开Firefox浏览器,输入某度指数地址,登录账号,记得勾选记住密码(将用户和密码数据写入浏览器本地缓存),关闭浏览器;
2、验证一下:再次打开浏览器,输入地址,如果不用登录,可以直接到数据页面,那么验证ok;
3、修改代码:之前的登录部分封装起来,因为本地缓存数据有一个有效期,所以在进入界面后如果发现没登录还是要再登录下的,new FirefoxDriver的时候加上使用本地浏览器配置,如下:
System.setProperty("webdriver.firefox.bin", SpiderConfig.getValue("webdriver.firefox.bin"));
FirefoxProfile firefoxProfile = new FirefoxProfile(new File(SpiderConfig.getValue("webdriver.firefox.profile.path")));
FirefoxDriver driver = new FirefoxDriver(firefoxProfile);
就是这么easy,就是这么随意,就这三行代码搞定!
总结
这个例子再一次证明,有时候遇到难题,不要慌,不要硬抗,多思考多分析,还是那句话:多码多实践!!!纸上得来终觉浅,绝知此事要躬行。
原文来自下方公众号,转载请联系作者,并务必保留出处。
想第一时间看到更多原创技术好文和资料,请关注公众号:测试开发栈