对 Python 中的 Yield 一直理解的不够深刻,甚至存在误解。遇到一个神奇的用法后(多个 yield 连续使用)又好好研究了下,以下记录鄙人粗糙见解。
首先简单科普一下 yield:
要理解 yield 语句,关键要理解 python 的生成器。 用官网的说法1、2, 生成器就是一个返回迭代器(iterator)的函数。 和普通函数唯一的区别就是这个函数包含 yield 语句。
包含了 yield 的函数,就是一个生成器
我是在学爬虫 scrapy 框架时遇见多个yield 连续使用的
在最后两行代码:
# 例1
def parse(self, response):
# 1取出符合条件的 tr列表
tr_list = response.xpath('//tr[@class="even"] | //tr[@class="odd"]')
# 判断数据的有无 ,没有 到底了
if not tr_list:
return
# 2.遍历 每一个 tr 取出内容
for tr in tr_list:
item = TencentItem()
item['work_name'] = tr.xpath('./td[1]/a/text()').extract_first()
item['work_type'] = tr.xpath('./td[2]/text()').extract_first()
item['work_count'] = tr.xpath('./td[3]/text()').extract_first()
item['work_place'] = tr.xpath('./td[4]/text()').extract_first()
item['work_time'] = tr.xpath('./td[5]/text()').extract_first()
item['work_link'] = 'https://hr.tencent.com/' + tr.xpath('./td[1]/a/@href').extract_first()
# 给 引擎 -->管道
yield item
# 告诉 引擎 请求详情页
yield scrapy.Request(url=item['work_link'], callback=self.detail_parse)
初次看到时,对于以上代码执行机制实在难以理解!
因为在最初的理解里, yield 有两个作用:
- 暂停执行当前代码,并记录当前位置
- 相当于 return, 可以在后面返回值
继续执行 yield 下面的代码需要使用 next()
或者 send()
。
我就困惑了, 这里两个 yield 之间没有使用 next() 或者 send() 方法呀,那么它是怎么执行的呢?
然后我自己写了一个简单的测试函数,来探究 yield 的执行机制:
# 例2
# 自定义一个生成器
def genter():
a = 4
b = 5
c = 6
for i in range(5):
yield a
print('hhh'+str(i))
yield b
print("aaa" + str(i))
yield c
# 包含了yield 的 genter() 就是一个生成器
res = genter()
for i, c in enumerate(res):
if i > 1:
# 通过 break 来测试执行的结果
break
print(c)
而其结果是:
4
hhh0
5
aaa0
大家应该知道:
在取值时,使用 for 语句,里面封装了 next 方法。来一个个取出生成器的值,由程序运行结果可知:例2 中 genter() 实际是通过 多个 yield 实现了包含多个值的生成器
颠覆认知的是:yield 并没有暂停,yield 语句后面的 print 正常打印了!!
因此与其说 yield 的作用是暂停并记录位置, 不如严谨地说成:只有在只有一个yield 的情况下, 才是暂停并记录位置。函数的反复调用,也是这个值(迭代器)的反复调用;而上述yield 之间的 next 方法就通过 for 循环调用了
多个 yield 的情况下,应该理解成:这个函数本身就是一个拥有多个值(迭代器)的迭代器,此时 yield 的暂停, 应该暂停于下一个 yield 之前!
一般我们所见到的生成器,只有一个 yield,通过反复调用这个方法,来实现所谓的生成器。在这样的情况下,我们也习惯地以为 yield 的两个作用之一就是暂停执行当前的代码, 并记录当前位置,并且有 return 的作用。
不过多个 yield 和单个 yield 的情况,为何会不一样呢?
其底层的原理应该一样才对!
对于这个,啃了下官方文档,没看太明白。可能要去学了 C 语言才能理解。现在粗浅理解:之所以包含了 yield 关键字的函数就是一个生成器, 是因为 yield自身就是生成器!
那么对于例1 中的情况就很好理解了,parse 本身是一个生成器,scrapy 引擎会在调用其中值时添加next() 方法吧~
另外,除了官方文档, 还可以看下这篇讲协程的文档。
由于学艺未精,如有错误,望不吝赐教,谢谢!