240 发简信
IP属地:广东
  • scrapy_redis中以set存入url和附带内容-写给自己看爬虫系列7

    前言 需求:初始化url除了url外还有其他字段信息需要附带上,以便item输出时继承这些信息思路:改写scrapy_redis中的next_r...

  • redis读取mongo数据库的数据 -写给自己看爬虫系列6

    前言 需求:要向redis存入mongodb中的数据思路:利用redis和pymongo模块,读取mongo的数据后用lpush写入redis中...

  • scrapy怎么提高性能?-写给自己看爬虫系列5

    前言 需求:scrapy爬取网页速度十分缓慢,在目标网站良好的情况下三天才跑了80w条数据,参考其他爬虫的速度,一天抓取1000w条数据是没有问...

  • scrapy是广度优先还是深度优先?-写给自己看爬虫系列4

    前言 问题:有朋友问起这究竟scrapy是广度优先还是深度优先?回答:深度优先是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线...

  • scrapy保存请求失败的url-写给自己看爬虫系列3

    前言 需求:将请求不是200的url抓下来保存到本地记录方法:在scrapy的middlewares中创建一个中间件,对response.sta...

  • scrapy设置header部分随机-写给自己看爬虫系列2

    前言 需求:用scrapy设置request的请求头ua是随机的,header中其他参数是固定的。方法:由于scrapy局部设置优先于全局设置。...

  • scrapy抓取百度图片-写给自己看爬虫系列1

    前言 需求:用scrapy抓取图片思路:scrapy抓取图片的逻辑是,用爬虫抓取图片url输出到pipeline中,然后由pipeline实施下...

  • Resize,w 360,h 240
    阿里云部署django网站教程(Ngnix +Uwsgi + virtualenv)下篇

    前言 最近在用django部署网站www.aihunter.cc,经历各种坑后觉得有必要总结一下流程以备日后遗忘。在下阅读众多教程后觉得网上还是...

    1.2 6678 5 36
  • Resize,w 360,h 240
    阿里云部署django网站教程(Ngnix +Uwsgi + virtualenv)上篇

    前言 最近在用django部署网站www.aihunter.cc,经历各种坑后觉得有必要总结一下流程以备日后遗忘。在下阅读众多教程后觉得网上还是...

    1.0 6276 0 11
个人介绍
一只坐标在广州关注Artificial Intelligence和爱吃甜品的运营
个人网站http://www.aihunter.cc/