Python爬虫任务分析

爬虫分析

1.拿到目标网站

2.分析url,判断网站的动静态

3.静态网站和静态网站

如果是静态网站可以在分析好url之后进行数据的匹配获取,可以用正则re,xpath,bs4,pyquery等;另外某些网站会对html文件进行压缩,这时会遇到一个解压缩的问题,不然获取到的静态页面数据是乱码。这里我用的是谷歌浏览器,按F12检查,找到network,在主页的html页面接口处查看请求头参数是否有Accept-Encoding,一般的压缩格式都有gzip,那么在发起请求的时候需要把这些参数加到headers里面,这时请求成功之后拿到的数据就是正常的了。


在这里插入图片描述

剩下的则是动态网站,一般都是ajax请求的数据,也就是返回的json数据,在拿到目标url之后发起请求,进行一系列的编码解码操作,再用正则re进行匹配需要的字段和内容。

4.数据持久化

数据持久化也就是将获取到的数据存储到本地,可以是存储为txt,csv,html,xlse等文件格式。另外就是数据库存储,可以选择mysql,redis,mongodb,这三个数据库也是我们必须会用的。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容