2019-07-12

爬虫读书笔记

1：修改请求头可以做一个User-Agent的池随机切换

2：修改爬虫的间隔时间固定的时间间隔也不正常，可以用随机的时间间隔，在一个范围一直浏览一个网站也不正常，

可以设置爬取几次后休息一下

3 代理 IP

代理IP也不稳定-->动态IP的ADSL或者Tor代理服务器

ADSL ip动态的

Tor the onion router 洋葱路由

cookie的作用：是因为http是无状态的，保存在浏览器本地，第二次访问的时候携带好让服务器认识

4：禁用COOKIE 因为有些网站会根据用户的COOKIE来判断是否为爬虫尤其是那些不需要登陆的网站

AJAX 动态页面可以用浏览器检查和selenium

浏览器检查：因为数据没有出现在网页源代码，但是我们还是可以找到数据的真实地址，类似抓包

有些网站很复杂，直接用浏览器在显示网页时候解析html，就是用浏览器渲染的方法将动态变成静态

5 selenium 当有些URL很复杂甚至被加密的时候，可以使用selenium模拟登陆

但selenium 要把浏览器加载完，速度就很慢，相比

正则表达式

lxml-->xpath -->先要将html解析为lxml格式

2019-07-12