读入文本

···
import collections
import re

def read_time_machine():
with open('/home/kesci/input/timemachine7163/timemachine.txt', 'r') as f:
lines = [re.sub('[^a-z]+', ' ', line.strip().lower()) for line in f]
return lines

lines = read_time_machine()
print('# sentences %d' % len(lines))
···

分词 token

我们对每个句子进行分词，也就是将一个句子划分成若干个词（token），转换为一个词的序列。

建立字典vocab，将每个词映射到一个唯一的索引（index）

为了方便模型处理，我们需要将字符串转换为数字。因此我们需要先构建一个字典（vocabulary），将每个词映射到一个唯一的索引编号。

将文本从词的序列转换为索引的序列，方便输入模型

使用字典，我们可以将原文本中的句子从单词序列转换为索引序列。

用现有工具进行分词

我们前面介绍的分词方式非常简单，它至少有以下几个缺点:

标点符号通常可以提供语义信息，但是我们的方法直接将其丢弃了
类似“shouldn't", "doesn't"这样的词会被错误地处理
类似"Mr.", "Dr."这样的词会被错误地处理

我们可以通过引入更复杂的规则来解决这些问题，但是事实上，有一些现有的工具可以很好地进行分词，我们在这里简单介绍其中的两个：spaCy和NLTK。

4_文本预处理