2019-07-12

爬虫读书笔记

1:修改请求头 可以做一个User-Agent的池 随机切换

2:  修改爬虫的间隔时间 固定的时间间隔也不正常,可以用随机的时间间隔,在一个范围一直浏览一个网站也不正常,

可以设置爬取几次后休息一下

3  代理 IP

代理IP也不稳定-->动态IP的ADSL或者Tor代理服务器

ADSL ip动态的

Tor the onion router 洋葱路由

cookie的作用 :是因为http是无状态的,保存在浏览器本地,第二次访问的时候携带好让服务器认识

4:禁用COOKIE 因为有些网站会根据用户的COOKIE来判断是否为爬虫  尤其是那些不需要登陆的网站

AJAX 动态页面 可以用 浏览器检查 和selenium

浏览器检查:因为数据没有出现在网页源代码,但是我们还是可以找到数据的真实地址,类似抓包

有些网站很复杂,直接用浏览器在显示网页时候解析html,就是用浏览器渲染的方法将动态变成静态

5 selenium  当有些URL很复杂甚至被加密的时候,可以使用selenium模拟登陆

但selenium 要把浏览器加载完,速度就很慢,相比

正则表达式

lxml-->xpath  -->先要将html解析为lxml格式

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容