登录注册写文章

Scrapy 版本升级(1.8.0-->2.5.0)

吃个橘子吧

Scrapy 版本升级(1.8.0-->2.5.0)

祢豆子爬虫.gif

Context: Scrapy版本落后，目前已经更新到2.5.0，爬虫环境使用的还是3年前的1.8版本，很多炫酷的新功能不能使用，因此将Scrapy版本升级，记录与此，提高之后开发效率。

Release notes

官方Release notes: https://docs.scrapy.org/en/latest/news.html

部分新的Feature

headers_received
New headers_received signal that allows stopping downloads early）(New in version 2.5.0)
新增headers_received信号，可以停止下载
应用场景: 可以用过Response Headers判断是否还需要下载，实际应用场景如下
1.1需要Json类型的Response，可以通过Header Content-Type判断是否是对应格式
1.2 如某些网站会返回302状态码跳转到验证码界面，则可以通过Header中Location判断是否被重定向
翻页相关

Response.follow()
Response.follow_all()
Reseponse.urljoin()
之前翻页大多是通过自己拼接下一页的Url发出请求，更优的方法是通过Response.follow_all或 Response.follow_all
(New in version 2.0.)便捷生成翻页请求；
TextResponse还支持Selector 选择器和Link提取器，省去了自己提取href属性的步骤；
如果需要自定制拼接url可以使用Response.urljoin方法拼接

最后编辑于：2021.08.04 00:04:11

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Pycharm+Scrapy框架运行爬虫糗事百科（无items数据版本）
scrapy爬虫框架 qsbk.py 爬虫代码 import scrapy'''scrapy框架爬虫流程：发送请求...
幼姿沫阅读 3,056评论 0赞 0
Scrapy 爬虫之 Spiders 官网手册翻译
网站）上的内容，包括如何爬行（比如跳转链接），如何从页面获取结构化的数据。换句话说，spider 提供了自定义爬行...
别摸我蒙哥阅读 3,517评论 0赞 1

Scrapy重试
技术栈 Scrapy（Stats Collection）业务背景最近在用Scrapy爬取某平台的小区信息时，为...
吃个橘子吧阅读 9,902评论 0赞 3
第四周软体development view
4.Development View This section describes the architectur...
一根长木阅读 994评论 0赞 0
Scrapy框架总结
文件目录说明： scrapy.cfg: 项目的配置文件 tutorial/: 该项目的python模块。之后您将在...
关键先生耶阅读 3,682评论 0赞 0

1赞2赞

赞赏

手机看全文