在Python中,这种一边循环一边计算生成的机制,称为 生成器 :generator。
生成器的好处是延迟计算,一次返回一个结果。也就是说,它不会一次生成所有的结果,这对于大数据量处理,将会非常有用。
1.典型的生成器:元组生成式。
a = (i for i in range(10))
print(a)
# 返回值:
# <generator object <genexpr> at 0x000001F26FE87BF8>
通过 next() 函数获得 generator 的下一个返回值:
a = (i for i in range(3))
next(a)
# 返回值:0
next(a)
# 返回值:1
next(a)
# 返回值:2
但是当 next() 执行的次数超过范围时(因为 generator 保存的是算法),会抛出 StopIteration 异常:
next(a)
# 再次执行 next() 时,抛出了异常。
"""
Traceback (most recent call last):
File "<input>", line 1, in <module>
StopIteration
"""
因为 generator 也是可迭代对象
from collections import Iterable
# 定义一个生成器
a = (i for i in range(3))
# 判断生成器的数据是否为可迭代对象
res = isinstance(a, Iterable)
print(res)
# 返回值:True
# 说明 generator 是可迭代对象。
故使用for循环解决上述抛出的异常:
g = (x * x for x in range(5))
for n in g:
print(n)
# 返回值
"""
0
1
4
9
16
"""
2.函数式生成器
上述的生成器是使用元组生成式实现的,其推算的算法比较简单。当遇到比较复杂的算法时,可以使用函数来实现,以 斐波拉契数列 来理解。
**著名的斐波拉契数列(Fibonacci),除第一个和第二个数外,任意一个数都可由前两个数相加得到 **
普通函数实现如下
def fib(num):
val1, val2 = 0, 1
for i in range(num):
# 这是优化写法,要消化
val1, val2 = val2, val1 + val2
print(val2)
fel(5)
"""
1
2
3
5
8
"""
仅需将上述代码中的第 6 行 print() 换成 yield 关键字,就将此函数变成了生成器。代码如下
def fib(num):
val1, val2 = 0, 1
for i in range(num):
val1, val2 = val2, val1 + val2
yield val2
print(fib(5))
# 返回值,表明其为生成器:
# <generator object fel at 0x00000253862EB518>
generator 和函数的执行流程不一样,在每次执行调用 next() 时,遇到 yield 语句则返回。再次执行next()时从上次返回的 yield 语句处继续执行。
这个对于理解 yield 关键字的作用,很重要!很重要!很重要!
使用 for 循环迭代该生成器获取下一个返回值:
a = fib(5)
for i in a:
print(i)
生成器的缺点
生成器被只能被遍历一次。以下代码中的 .join() 函数已经遍历了一次生成器,再次调用发现没有返回值。
但是测试发现
- 此处将第 6 行注释掉,直接,将第7行和第9行的变量a 换为 fileOpt() ,能被多次遍历。
def fileOpt():
with open('testProxy.py', 'r',encoding='utf8') as f:
for line in f:
yield line
a = fileOpt()
print('sum','.'.join(a))
for i in a:
print(i)