通过一个简单类的实现及优化过程,慢慢深入迭代的概念。
该类的主要功能如下:
- 传入一段话
- 可以迭代输出这段话的中所包含的每个词
迭代器版单词序列
通过前面那一节,我们大致知道迭代器是这样一个东西:
- 实现无参数的
__next__
方法,返回序列的下一个元素,如果没有下一个则抛出StopIteration
异常。 - 实现
__iter__
方法,使得迭代器能够可迭代。
通过第一节和上面的知识,我们知道要实现迭代器版本的单词序列:
- 实现单词序列的
__iter__
方法,在这个方法里面返回一个迭代器对象。 - 这个迭代器对象中实现
__next__
方法和__iter__
方法。
思路明确了,开始写代码:
import re
import reprlib
RE_WORD = re.compile(r'\w+')
class Sentence(object):
def __init__(self, text):
self.text = text
self.words = RE_WORD.findall(text)
def __repr__(self):
return 'Sentence(%s)' % reprlib.repr(self.text)
def __iter__(self):
return SentenceIterator(self.words)
class SentenceIterator(object):
def __init__(self, words):
self.words = words
self.index = 0
def __next__(self):
try:
word = self.words[self.index]
except IndexError:
raise StopIteration()
self.index += 1
return word
def __iter__(self):
return self
Sentence.__iter__
返回一个迭代器对象,具体的迭代逻辑由这个迭代器的具体内容实现。
SentenceIterator
迭代器实现 __iter__
方法,返回自身对象;__next__
方法通过内部变量 self.index
记录状态值,每次获取下一个元素。
可能有人会想,我直接在 Sentence
类中把 __next__
方法一并实现了岂不是省了一坨代码。如果这么做的话就违背了《设计模式:可复用面向对象软件的基础》中讲解迭代器设计模式时提到的“适用性”这一特性。
按照正常的做法,我们可以通过 iter(x)
函数生成 同一个 x 对象 的多份迭代器对象,之后想做多种遍历都可以很简单的操作。
但是如果我们把 __next__
方法集成在了 Sentence
类里,iter(x)
返回的永远是同一个迭代器,无法实现其他遍历操作。
所以这里就把可迭代对象和迭代器区别开来。
生成器函数
上面迭代器版本的单词序列看起来已经很完美了。但,我们用的是世界上最好的语言——Python,所以我们有更优美的写法:
import re
import reprlib
RE_WORD = re.compile(r'\w+')
class Sentence:
def __init__(self, text):
self.text = text
self.words = RE_WORD.findall(text)
def __repr__(self):
return 'Sentence(%s)' % reprlib.repr(self.text)
def __iter__(self):
for word in self.words:
yield word
上面 Sentence.__iter__
返回的迭代器对象是使用 yield
关键字定义的一个生成器对象。
看下面这段生成器代码片段:
In [1]: def gen_123():
...: yield 1
...: yield 2
...: yield 3
...:
In [2]: g = gen_123()
In [3]: next(g)
Out[3]: 1
In [4]: next(g)
Out[4]: 2
In [5]: next(g)
Out[5]: 3
In [6]: next(g)
---------------------------------------------------------------------------
StopIteration Traceback (most recent call last)
<ipython-input-63-e734f8aca5ac> in <module>
----> 1 next(g)
StopIteration:
将生成器对象放入 next()
函数中,生成器对象会向前调用到下一个 yield
语句处,并把 yield
后面的值类似于 return
一样返回出来,当全部代码执行完毕时会抛出 StopIteration
异常。
可见生成器对象和迭代器对象都是 鸭子!
所以说,Sentence.__iter__
方法返回的生成器对象已经实现了迭代器 __iter__
和 __next__
的接口。
总结
- 可迭代对象实现了
__iter__
接口 - 迭代器不止实现
__iter__
接口,还要实现__next__
接口 - 生成器内部已经实现了迭代器的接口