
通过一个简单类的实现及优化过程,慢慢深入迭代的概念。
该类的主要功能如下:
- 传入一段话
- 可以迭代输出这段话的中所包含的每个词
迭代器版单词序列
通过前面那一节,我们大致知道迭代器是这样一个东西:
- 实现无参数的
__next__方法,返回序列的下一个元素,如果没有下一个则抛出StopIteration异常。 - 实现
__iter__方法,使得迭代器能够可迭代。
通过第一节和上面的知识,我们知道要实现迭代器版本的单词序列:
- 实现单词序列的
__iter__方法,在这个方法里面返回一个迭代器对象。 - 这个迭代器对象中实现
__next__方法和__iter__方法。
思路明确了,开始写代码:
import re
import reprlib
RE_WORD = re.compile(r'\w+')
class Sentence(object):
def __init__(self, text):
self.text = text
self.words = RE_WORD.findall(text)
def __repr__(self):
return 'Sentence(%s)' % reprlib.repr(self.text)
def __iter__(self):
return SentenceIterator(self.words)
class SentenceIterator(object):
def __init__(self, words):
self.words = words
self.index = 0
def __next__(self):
try:
word = self.words[self.index]
except IndexError:
raise StopIteration()
self.index += 1
return word
def __iter__(self):
return self
Sentence.__iter__ 返回一个迭代器对象,具体的迭代逻辑由这个迭代器的具体内容实现。
SentenceIterator 迭代器实现 __iter__ 方法,返回自身对象;__next__ 方法通过内部变量 self.index 记录状态值,每次获取下一个元素。
可能有人会想,我直接在 Sentence 类中把 __next__ 方法一并实现了岂不是省了一坨代码。如果这么做的话就违背了《设计模式:可复用面向对象软件的基础》中讲解迭代器设计模式时提到的“适用性”这一特性。
按照正常的做法,我们可以通过 iter(x) 函数生成 同一个 x 对象 的多份迭代器对象,之后想做多种遍历都可以很简单的操作。
但是如果我们把 __next__ 方法集成在了 Sentence 类里,iter(x) 返回的永远是同一个迭代器,无法实现其他遍历操作。
所以这里就把可迭代对象和迭代器区别开来。
生成器函数
上面迭代器版本的单词序列看起来已经很完美了。但,我们用的是世界上最好的语言——Python,所以我们有更优美的写法:
import re
import reprlib
RE_WORD = re.compile(r'\w+')
class Sentence:
def __init__(self, text):
self.text = text
self.words = RE_WORD.findall(text)
def __repr__(self):
return 'Sentence(%s)' % reprlib.repr(self.text)
def __iter__(self):
for word in self.words:
yield word
上面 Sentence.__iter__ 返回的迭代器对象是使用 yield 关键字定义的一个生成器对象。
看下面这段生成器代码片段:
In [1]: def gen_123():
...: yield 1
...: yield 2
...: yield 3
...:
In [2]: g = gen_123()
In [3]: next(g)
Out[3]: 1
In [4]: next(g)
Out[4]: 2
In [5]: next(g)
Out[5]: 3
In [6]: next(g)
---------------------------------------------------------------------------
StopIteration Traceback (most recent call last)
<ipython-input-63-e734f8aca5ac> in <module>
----> 1 next(g)
StopIteration:
将生成器对象放入 next() 函数中,生成器对象会向前调用到下一个 yield 语句处,并把 yield 后面的值类似于 return 一样返回出来,当全部代码执行完毕时会抛出 StopIteration 异常。
可见生成器对象和迭代器对象都是 鸭子!
所以说,Sentence.__iter__ 方法返回的生成器对象已经实现了迭代器 __iter__ 和 __next__ 的接口。
总结
- 可迭代对象实现了
__iter__接口 - 迭代器不止实现
__iter__接口,还要实现__next__接口 - 生成器内部已经实现了迭代器的接口