爬虫读书笔记
1:修改请求头 可以做一个User-Agent的池 随机切换
2: 修改爬虫的间隔时间 固定的时间间隔也不正常,可以用随机的时间间隔,在一个范围一直浏览一个网站也不正常,
可以设置爬取几次后休息一下
3 代理 IP
代理IP也不稳定-->动态IP的ADSL或者Tor代理服务器
ADSL ip动态的
Tor the onion router 洋葱路由
cookie的作用 :是因为http是无状态的,保存在浏览器本地,第二次访问的时候携带好让服务器认识
4:禁用COOKIE 因为有些网站会根据用户的COOKIE来判断是否为爬虫 尤其是那些不需要登陆的网站
AJAX 动态页面 可以用 浏览器检查 和selenium
浏览器检查:因为数据没有出现在网页源代码,但是我们还是可以找到数据的真实地址,类似抓包
有些网站很复杂,直接用浏览器在显示网页时候解析html,就是用浏览器渲染的方法将动态变成静态
5 selenium 当有些URL很复杂甚至被加密的时候,可以使用selenium模拟登陆
但selenium 要把浏览器加载完,速度就很慢,相比
正则表达式
lxml-->xpath -->先要将html解析为lxml格式