爬取简书文章

爬取目标:简书七日热门的文章数据(如标题,作者,阅读量,评论,喜欢等等),并把这些数据存放到Mongodb中!

打开mongodb
页面

接下来我们可以分析一下这个页面,我们可以看到它的页面信息是异步加载的,我们尝试着获得它的页面规律:

页面加载动态


页面数据

我们发现页面的请求链接实际是:http://www.jianshu.com/trending/weekly?pages=2这样的一个结构,我们在进行翻页的时候,只需要将page的数据替换掉就行了。并且我们发现,每一个页面一共有20篇文章数据,于是我们就可以获得每个文章页面的用户链接了;

链接

抓取 完连链接后就开始爬取文章的详细信息

详细页的信息

对于这里面的爬取,阅读量和喜欢,评论需要用正则表达式匹配,其他的直接用BS就可以,直接上代码吧


爬取的结果

存放在Mongodb中的数据


Mongodb

最后总结一点:学编程,需要的就是不断的行动!也许你看了很多书,很多视频但实战就知道自己不行了,好好加油吧!(加了一个python学习社群,这篇是作业)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容