今天看爬虫教材,说要去模拟登陆豆瓣。。。那就去豆瓣吧。。刚进入网站一看,诶!不错,这个站点不需要验证码,心里窃喜一下下!赶紧填写信息去注册。。。
注册好以后,再去登陆网站,悲剧了,,需要验证码。。
第一步,找到验证码地址,放到程序里跑了几次,不能登陆,而且怎么验证码都是一个的???肯定掉坑了。。
第二步,使用开发者工具,点验证码,刷新一下,发现出来两个地址。。。
并且每次点击,id的值都会发生变化,继续查看captcha这个地址,发现id值在其json数据内,窃喜一下下。。。
构建post的data部分,验证码通过先获取,再手工输入的形式,登录成功!
代码随意写写,可读性太差了。。。