反爬虫问题

1、不返回网页，如不返回内容和延迟网页返回时间
2、返回数据非目标网页，如返回错误页、返回空白页和爬取多页时，均返回同一页
3、增加获取数据的难度，如登陆才可查看和登陆时设置验证码

1、修改请求头

import requests
r = requests.get('http://www.santostang.com')
print(r.request.headers)

获得的结果放到爬虫脚本的请求头headers中。
2、修改爬虫的间隔时间
爬虫运行的太过密集，设置一个时间间隔

import time
t1 = time.time()
time.sleep(2)
t2 =time.time()
total_time= t2-t1
print(total_time)

3、使用代理
代理是一种特殊的网络服务，允许一个网络终端，通过这个服务与另一个网络终端进行非直接的链接。
我们可以维护一个自己的IP池，从而让爬虫程序隐藏自己的真实IP。但是代理IP池维护起来很麻烦，而且十分不稳定。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

1赞2赞

赞赏

手机看全文