scrapy保存请求失败的url-写给自己看爬虫系列3

前言

需求：将请求不是200的url抓下来保存到本地记录
方法：在scrapy的middlewares中创建一个中间件，对response.status状态不为200的url收集下来

middleware中设置方法

class GetFailedUrl(object):

    def process_response(self,response,request,spider):
        
        if response.status != 200:

            name  = time.strftime('%Y-%m-%d %H:%M',time.localtime())

            with open (str(name),'w+') as file:
                
                file.write(response.url)

                return response
        else:
            return response

最后编辑于：2017.12.11 04:38:03

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

scrapy学习笔记(有示例版）
scrapy学习笔记(有示例版）我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
陈思煜阅读 12,848评论 4赞 46
网络爬虫Scrapy从入门到进阶
Advanced Web Scraping: Bypassing "403 Forbidden," captcha...
treelake阅读 51,423评论 8赞 111
Scrapy-redis实现分布式爬虫
Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化...
Evtion阅读 5,955评论 12赞 18
Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 135,281评论 19赞 139
我继续写
窗外细叶纷纷我继续写写下了你的诗篇我静静欣赏你那只属于我的美丽但你未曾看过我我继续写写下那些人那...
龙雨寒阅读 175评论 0赞 1

2赞3赞

赞赏

手机看全文