爬取简书文章

爬取目标：简书七日热门的文章数据（如标题，作者，阅读量，评论，喜欢等等），并把这些数据存放到Mongodb中！

打开mongodb

页面

接下来我们可以分析一下这个页面，我们可以看到它的页面信息是异步加载的，我们尝试着获得它的页面规律：

页面加载动态

页面数据

我们发现页面的请求链接实际是：http://www.jianshu.com/trending/weekly?pages=2这样的一个结构，我们在进行翻页的时候，只需要将page的数据替换掉就行了。并且我们发现，每一个页面一共有20篇文章数据，于是我们就可以获得每个文章页面的用户链接了；

链接

抓取完连链接后就开始爬取文章的详细信息

详细页的信息

对于这里面的爬取，阅读量和喜欢，评论需要用正则表达式匹配，其他的直接用BS就可以，直接上代码吧

爬取的结果

存放在Mongodb中的数据

Mongodb

最后总结一点：学编程，需要的就是不断的行动！也许你看了很多书，很多视频但实战就知道自己不行了，好好加油吧！（加了一个python学习社群，这篇是作业）

最后编辑于：2017.12.07 18:41:07

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。