Python爬虫任务分析

爬虫分析

1.拿到目标网站

2.分析url，判断网站的动静态

3.静态网站和静态网站

如果是静态网站可以在分析好url之后进行数据的匹配获取，可以用正则re，xpath，bs4，pyquery等；另外某些网站会对html文件进行压缩，这时会遇到一个解压缩的问题，不然获取到的静态页面数据是乱码。这里我用的是谷歌浏览器，按F12检查，找到network，在主页的html页面接口处查看请求头参数是否有Accept-Encoding，一般的压缩格式都有gzip，那么在发起请求的时候需要把这些参数加到headers里面，这时请求成功之后拿到的数据就是正常的了。

在这里插入图片描述

剩下的则是动态网站，一般都是ajax请求的数据，也就是返回的json数据，在拿到目标url之后发起请求，进行一系列的编码解码操作，再用正则re进行匹配需要的字段和内容。

4.数据持久化

数据持久化也就是将获取到的数据存储到本地，可以是存储为txt，csv，html，xlse等文件格式。另外就是数据库存储，可以选择mysql，redis，mongodb，这三个数据库也是我们必须会用的。