yield关键字
yield<——>生成器
生成器是一个不断产生值的函数
包含yield语句 的函数是一个生成器
生成器每次产生一个值(yield语句),函数被冻结,被唤醒后再产生一个值。
生成器 vs.列表——>
更节省存储空间 /响应更迅速 /使用更灵活
Scrapy爬虫的使用步骤
1.创建一个工程和Spider模板
2.编写Spider
3.编写Item Pipeline
4.优化配置策略
Scrapy爬虫的使用步骤
1. Request类
Request对象表示一个HTTP请求
由Spider生成,downloader执行
2.Response类
Response对象表示一个HTTP响应
由Downloader生成,Spider执行
3.Item类
Item对象表示从html页面中提取的信息内容
由Spider生成,由Item Pipeline处理
Item类似字典类型,可以按照字典类型操作
spider提取信息的方法
Beautiful Soup
lxml
re
XPath Selector
CSS Selector