迭代器和生成器在python中是非常重要的概念,我这里结合最近学到的东西,谈一下自己的理解。
迭代器
python中的容器有许多,比如列表、元组、字典、集合等,对于容器,可以很直观地想象成多个元素在一起的单元,所有的容器都是可迭代的(iterable)。
我们通常使用for in 语句对可迭代的对象进行枚举,其底层机制在于:
而可迭代对象,通过 iter() 函数返回一个迭代器(iterator),迭代器提供了一个 next 的方法。调用用这个方法后,你要么得到这个容器的下一个对象,要么得到一个StopIteration 的错误。
举个例子:
>>> items = [1, 2, 3]
>>> # Get the iterator
>>> it = iter(items) # Invokes items.__iter__()
>>> # Run the iterator
>>> next(it) # Invokes it.__next__()
1
>>> next(it)
2
>>> next(it)
3
>>> next(it)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
StopIteration
>>>
为了手动的遍历可迭代对象,使用 next() 函数并在代码中捕获 StopIteration 异常。
大多数情况下,我们会使用 for 循环语句用来遍历一个可迭代对象。 但是,偶尔也需要对迭代做更加精确的控制,这时候了解底层迭代机制就显得尤为重要了。
生成器
生成器(generator)可以简单理解为懒人版本的迭代器。
它相比于迭代器的优势是,生成器并不会像迭代器一样占用大量内存。比如声明一个迭代器:[i for i in range(100000000)]就可以声明一个包含一亿个元素的列表,每个元素在生成后都会保存到内存中。但实际上我们也许并不需要保存那么多东西,只希望在你用 next() 函数的时候,才会生成下一个变量,因此生成器应运而生,在python中的写法为(i for i in range(100000000))
此外,生成器还可以有别的形式,比如生成器函数,通过yield关键字,把结果返回到next()方法中,举个例子:
def frange(start, stop, increment):
x = start
while x < stop:
yield x
x += increment
for n in frange(0, 2, 0.5):
... print(n)
...
0
0.5
1.0
1.5
相比于迭代器,生成器具有以下优点:
- 减少内存
- 延迟计算
- 有效提高代码可读性
一些应用
有一道经典的算法题,给定两个序列,判定第一个是不是第二个的子序列。leetcode链接如下:https://leetcode-cn.com/problems/is-subsequence/
通常的做法是维护两个指针指向两个列表的最开始,第二个指针一路扫过去,如果某个数字和第一个指针指的数字一样,就前进一步,直到第一个指针走完,返回为True。
这么写起码也要十几行代码,但如果我们理解了生成器,则解法会变得极其的简单。
def is_subsequence(a, b):
b = iter(b)
return all(i in b for i in a)
print(is_subsequence([1, 3, 5], [1, 2, 3, 4, 5]))
第二个例子是关于代码可读性。
现在有一个需求,求一段文字中,每个单词出现的位置。不使用生成器的情况:
def index_words(text):
result = []
if text:
result.append(0)
for index, letter in enumerate(text, 1):
if letter == ' ':
result.append(index)
return result
使用生成器的情况:
def index_words(text):
if text:
yield 0
for index, letter in enumerate(text, 1):
if letter == ' ':
yield index
不使用生成器的时候,对于每次结果,我们首先看到的是result.append(index),其次,才是index。使用生成器的时候,直接yield index,少了列表append操作的干扰,我们一眼就能够看出,代码是要返回index。
最后要提醒一下,使用生成器的唯一注意事项就是:生成器只能遍历一次。