wfishj - 简书

wfishj

IP属地：广东

scrapy_redis中以set存入url和附带内容-写给自己看爬虫系列7
前言需求：初始化url除了url外还有其他字段信息需要附带上，以便item输出时继承这些信息思路：改写scrapy_redis中的next_r...

1151 1 1
redis读取mongo数据库的数据 -写给自己看爬虫系列6
前言需求：要向redis存入mongodb中的数据思路：利用redis和pymongo模块，读取mongo的数据后用lpush写入redis中...

728 0 0

scrapy怎么提高性能？-写给自己看爬虫系列5
前言需求：scrapy爬取网页速度十分缓慢，在目标网站良好的情况下三天才跑了80w条数据，参考其他爬虫的速度，一天抓取1000w条数据是没有问...

8016 0 0
scrapy是广度优先还是深度优先？-写给自己看爬虫系列4
前言问题：有朋友问起这究竟scrapy是广度优先还是深度优先？回答：深度优先是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线...

4477 2 1
scrapy保存请求失败的url-写给自己看爬虫系列3
前言需求：将请求不是200的url抓下来保存到本地记录方法：在scrapy的middlewares中创建一个中间件，对response.sta...

0.1 3489 0 2
scrapy设置header部分随机-写给自己看爬虫系列2
前言需求：用scrapy设置request的请求头ua是随机的，header中其他参数是固定的。方法：由于scrapy局部设置优先于全局设置。...

6834 0 3
scrapy抓取百度图片-写给自己看爬虫系列1
前言需求：用scrapy抓取图片思路：scrapy抓取图片的逻辑是，用爬虫抓取图片url输出到pipeline中，然后由pipeline实施下...

1916 0 0

阿里云部署django网站教程（Ngnix +Uwsgi + virtualenv）下篇
前言最近在用django部署网站www.aihunter.cc，经历各种坑后觉得有必要总结一下流程以备日后遗忘。在下阅读众多教程后觉得网上还是...

1.2 2353 5 36
阿里云部署django网站教程（Ngnix +Uwsgi + virtualenv）上篇
前言最近在用django部署网站www.aihunter.cc，经历各种坑后觉得有必要总结一下流程以备日后遗忘。在下阅读众多教程后觉得网上还是...

1.0 2242 0 11