scrapy保存请求失败的url-写给自己看爬虫系列3

前言

需求:将请求不是200的url抓下来保存到本地记录
方法:在scrapy的middlewares中创建一个中间件,对response.status状态不为200的url收集下来

middleware中设置方法
class GetFailedUrl(object):

    def process_response(self,response,request,spider):
        
        if response.status != 200:

            name  = time.strftime('%Y-%m-%d %H:%M',time.localtime())

            with open (str(name),'w+') as file:
                
                file.write(response.url)

                return response
        else:
            return response
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,819评论 4 46
  • Advanced Web Scraping: Bypassing "403 Forbidden," captcha...
    treelake阅读 51,392评论 8 111
  • Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化...
    Evtion阅读 5,937评论 12 18
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,169评论 19 139
  • 窗外 细叶纷纷 我继续写 写下了你的诗篇 我静静欣赏你那只属于我的美丽 但 你未曾看过我 我继续写 写下那些人 那...
    龙雨寒阅读 174评论 0 1