登录注册写文章

requests爬虫改为增量爬虫的一种方法

requests爬虫改为增量爬虫的一种方法

在爬虫编写中，为了避免重复爬取同一个网页，一般会使用增量爬虫，这样就避免了重复爬取相同的一个网页，只爬取新的网页数据。scrapy-redis做分布式的时候使用的是布隆过滤器来做的增量爬虫，本人平时一般小的爬虫就没有使用框架，直接用的requests写的，requests结合MongoDB数据库做的增量爬虫，如果网站不需要登录的话，就可以先把详情页的url和解析详情页分开来做，把爬取到的url保留一个字段，比如status，爬取到的没有解析的就标记为0，（MongoDB数据库中可以设置唯一索引，避免保存相同的url），这样在写解析详情页的时候用这个来获取（MongoDB数据库）

item = self.coll_url.find_and_modify({'status': 0}, {'$set': {'status': 1}})

这样就可以保证获取到的不是相同的url。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

关于Mongodb的全面总结
关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
中v中阅读 32,016评论 2赞 89
基于Scrapy分布式爬虫的开发与设计
这个项目也是初窥python爬虫的一个项目，也是我的毕业设计，当时选题的时候，发现大多数人选择的都是网站类，实在是...
梦航韩语阅读 3,035评论 2赞 37
python3 分布式爬虫
背景部门（东方IC、图虫）业务驱动，需要搜集大量图片资源，做数据分析，以及正版图片维权。前期主要用node做爬虫...
字节跳动技术团队阅读 7,741评论 1赞 67
聊聊我家的小男人
我家儿子刚过五岁，他有一双又黑又亮的大眼睛，头发很短，每次理完头发都说自己是光头强，一张能说会道的小嘴巴，笑起来也...
小小雁儿阅读 823评论 17赞 18
Ubuntu16.04LTS版本Navicat界面乱码（Wine而非字符集问题）
版本说明： Ubuntu版本：Ubuntu16.04LTS Navicat版本：官网的navicat版本，当然是p...
Balyon阅读 8,231评论 3赞 2

赞1赞

赞赏

手机看全文