拉勾网网页分析

今天想爬取拉勾网的一些数据,但是期间遇到了不少问题,下面简单讲一下思路:

首先我们看一下公司主页,拉到最下面。看看页码为1时网页的url:

页码为1时的页面

我们再看一下页面为2时的页面:


页码为2时的页面

好家伙,页码不一样的时候url是一样的,这时候,就需要我们打开开发者工具来研究一下了。按下F12,按照图中选项勾选,可以得到看到这样的界面:


开发者工具界面

我们可以看到,网页的内容实际上是储存在213-0-0.json中的,我们加上这个后缀看看这个网页是什么:


https://www.lagou.com/gongsi/213-0-0.json

这个网页虽然不好看,但确实包含了我们想要的东西了。但是我们也发现一个问题,无论你切换到第几页,都是显示这个网址!这可咋整!别急,我们还有办法。

我们切换页码后在开发者工具里面看到的几个网址,也还是有一点不一样的,看:


对,就是每个网址的pn参数不一样,在第几页pn就是等于几。我们点一下view source,再看一下情况如何:


可以,我们好像已经得到一个有效的网址后缀了,我们把它输进去试试:


输入网址后缀后的界面

什么鬼,明明pn=2,但是出来的网页还是第一页,看来这个方法也行不通啊。但是,我们还有办法,就是requests函数的params参数,这次我们就在python上看看出来的源码z一不一样!PS:爬取源码需要用到抓包技术,这种文章google上很多,我就不赘述了。

好了,话不多说,我们看看:

params={'first':'false','pn':'1','sortField':'0','havemark':'0'}

cookies和headers自行补充,然后用requests函数访问'https://www.lagou.com/gongsi/213-0-0.json',出来的结果是什么呢?我们看看:


部分输出结果

我们把params中的pn参数改成2,看看怎么样:


部分输出结果

好了,我画圈的部分是不是和上面的不一样了?大功告成啦!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容