写了个简单的python程序,用来爬彩票网站的开奖历史,总共10101页。
这个程序运行了几分钟,爬到了50页数据就报错了,
可能是服务器对一个时间段内访问次数有限制,用以防止恶意爬数据,暂时屏蔽了。
测试了一下,每爬一页休息3-5秒,爬50页左右还是会报错。
需要改进!
爬到的数据是这样的,一期有6行数据:期号+5位数字
数据库里加工一下,就可以得到下面这样规整的开奖数据了!
网页超时的改进方案(未实施):
1.根据报错情况,加大sleep时间
2.用while循环不停尝试,从断点页开始继续爬