登录注册写文章

Scrapy框架的基本使用

关键先生耶

Scrapy框架的基本使用

1:什么是Scrapy框架

Scrapy一个开源和协作的框架是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞（又名异步）的代码来实现并发。是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。

2:Scrapy构架图：

重点记忆*

3:牢记它们各个的作用

理解记忆*

3:创建项目

创建项目.png

4:项目目录

项目目录.png

5:解析器

解析器.png

最后整理一下scrapy的操作流程：

name
- start_url, start_requests
- request对象，封装：请求相关和回调函数
- reponse对象，封装：响应相关和请求相关
- 获取start_requests中返回的【迭代器】
- 执行爬虫中间件 process_start_requests
- 去重规则：request_seen
- 放入调度器，requests可能会有序列化操作，===> enqueue_request
- 去调度器中获取任务， ===> next_request
- 下载中间件
- 设置请求头
- 代理【内置 _proxy;自定义下载中间件】
- 自己下载返回response
- 爬虫的回调函数 parse
yield request对象
yield item对象
- pipeline
- 扩展，基于信号
- Https

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

scrapy学习笔记(有示例版）
scrapy学习笔记(有示例版）我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
陈思煜阅读 12,804评论 4赞 46
《Learning Scrapy》（中文版）第10章理解Scrapy的性能
序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5...
SeanCheney阅读 9,167评论 3赞 20
scrapy框架的基本使用
通过本文了解scrapy的基本使用，并通过一个demo感受它的强大。 scrapy 来自Scrapy官网的介绍： ...
简讯Alfred阅读 6,177评论 3赞 16
python爬虫框架——Scrapy架构原理介绍
说起写爬虫，大多数第一时间想到的就是python了。python语法简洁明了，加上及其丰富好用的库，用它来写爬虫有...
疯狂的哈丘阅读 8,226评论 1赞 15
诉己请冷漠
初次心仪待我好，段时持撩依旧暧。情暖意会须一约，见光再无如初聊。
書野晓阅读 273评论 0赞 0

11赞12赞

赞赏

手机看全文