3. 用Keras实现SimpleRNN——生成文本

爱丽丝:疯帽子,为什么乌鸦会像写字台呢?
疯帽子:我也没有答案。
疯帽子:别了,爱丽丝。 小时候你来过这里,你对我说,你喜欢我,我问你为什么,你回答说,因为乌鸦长得像写字台。 如今,我反复说着这句,是想唤起你的记忆,可惜的是,你什么都忘了。 为什么乌鸦看起来会像写字台呢?没有原因的。 就像我爱你,没有什么理由。 ——《爱丽丝梦游仙境》

曾经有一次和妹子去看《爱丽丝梦游仙境2》的电影。看完电影后,妹子问我:乌鸦为什么想写字台?我:???然后就没有然后了,最后也没有和她在一起。作为一个程序员也要多看点技术以外的书啊,要做一个有趣的人嘛。

扯远了。我们今天要用Keras构建我们的第一个RNN实例,我们将在《爱丽丝梦游仙境》的文本上训练一个基于字符的语言模型,这个模型将通过给定的前10个字符预测下一个字符。我们选择一个基于字符的模型,是因为它的字典较小,并可以训练的更快,这和基于词的语言模型的想法是一样的。

1. 文本预处理

首先我们先获取《爱丽丝梦游仙境的》输入文本
下载地址

导入必要的库,读入文件并作基本的处理

from keras.layers.recurrent import SimpleRNN
from keras.models import Sequential
from keras.layers import Dense, Activation
import numpy as np

INPUT_FILE = "./alice_in_wonderland.txt"

# extract the input as a stream of characters
print("Extracting text from input...")
fin = open(INPUT_FILE, 'rb')
lines = []
for line in fin:
    line = line.strip().lower()
    line = line.decode("ascii", "ignore")
    if len(line) == 0:
        continue
    lines.append(line)
fin.close()
text = " ".join(lines)

因为我们在构建一个字符级水平的RNN,我们将字典设置为文本中出现的所有字符。因为我们将要处理的是这些字符的索引而非字符本身,于是我们要创建必要的查询表:

chars = set([c for c in text])
nb_chars = len(chars)
char2index = dict((c, i) for i, c in enumerate(chars))
index2char = dict((i, c) for i, c in enumerate(chars))

2. 创建输入和标签文本

我们通过STEP变量给出字符数目(本例为1)来步进便利文本,并提取出一段大小为SEQLEN变量定义值(本例为10)的文本段。文本段的下一字符是我们的标签字符。

#   例如:输入"The sky was falling",输出如下(前5个):
#   The sky wa -> s
#   he sky was ->  
#   e sky was  -> f
#    sky was f -> a
#   sky was fa -> l
print("Creating input and label text...")
SEQLEN = 10
STEP = 1

input_chars = []
label_chars = []
for i in range(0, len(text) - SEQLEN, STEP):
    input_chars.append(text[i:i + SEQLEN])
    label_chars.append(text[i + SEQLEN])

3. 输入和标签文本向量化

RNN输入中的每行都对应了前面展示的一个输入文本。输入中共有SEQLEN个字符,因为我们的字典大小是nb_chars给定的,我们把每个输入字符表示成one-hot编码的大小为(nb_chars)的向量。这样每行输入就是一个大小为(SEQLEN, nb_chars)的张量。我们的输出标签是一个单个的字符,所以和输入中的每个字符的表示类似。我们将输出标签表示成大小为(nb_chars)的one-hot编码的向量。因此,每个标签的形状就是nb_chars。

print("Vectorizing input and label text...")
X = np.zeros((len(input_chars), SEQLEN, nb_chars), dtype=np.bool)
y = np.zeros((len(input_chars), nb_chars), dtype=np.bool)
for i, input_char in enumerate(input_chars):
    for j, ch in enumerate(input_char):
        X[i, j, char2index[ch]] = 1
    y[i, char2index[label_chars[i]]] = 1

4. 构建模型

设定超参数BATCH_SIZE = 128
我们想返回一个字符作为输出,而非字符序列,因而设置return_sequences=False
输入形状为(SEQLEN, nb_chars)
为了改善TensorFlow后端性能,设置unroll=True

HIDDEN_SIZE = 128
BATCH_SIZE = 128
NUM_ITERATIONS = 25
NUM_EPOCHS_PER_ITERATION = 1
NUM_PREDS_PER_EPOCH = 100

model = Sequential()
model.add(SimpleRNN(HIDDEN_SIZE, return_sequences=False,
                    input_shape=(SEQLEN, nb_chars),
                    unroll=True))
model.add(Dense(nb_chars))
model.add(Activation("softmax"))

model.compile(loss="categorical_crossentropy", optimizer="rmsprop")

5. 模型的训练和测试

我们分批训练模型,每一步都测试输出
测试模型:我们先从输入里随机选一个,然后用它去预测接下来的100个字符

for iteration in range(NUM_ITERATIONS):
    print("=" * 50)
    print("Iteration #: %d" % (iteration))
    model.fit(X, y, batch_size=BATCH_SIZE, epochs=NUM_EPOCHS_PER_ITERATION, verbose=0)

    test_idx = np.random.randint(len(input_chars))
    test_chars = input_chars[test_idx]
    print("Generating from seed: %s" % (test_chars))
    print(test_chars, end="")
    for i in range(NUM_PREDS_PER_EPOCH):
        Xtest = np.zeros((1, SEQLEN, nb_chars))
        for i, ch in enumerate(test_chars):
            Xtest[0, i, char2index[ch]] = 1
        pred = model.predict(Xtest, verbose=0)[0]
        ypred = index2char[np.argmax(pred)]
        print(ypred, end="")
        # move forward with test_chars + ypred
        test_chars = test_chars[1:] + ypred
    print()

6. 输出测试结果

模型刚开始的预测毫无意义,当随着训练轮数的增加,它已经可以进行正确的拼写,尽管在表达语义上还有困难。毕竟我们这个模型是基于字符的,它对词没有任何认识,然而它的表现也足够令人惊艳了。

Iteration #: 1
Generating from seed: cat," said
cat," said the master and the salle the the the the the the the the the the the the the the the the the the th
==================================================
Iteration #: 2
Generating from seed: e went str
e went streand the sare and and and and and and and and and and and and and and and and and and and and and an
==================================================

......

==================================================
Iteration #: 21
Generating from seed: ere near t
ere near the white rabbit was and the book of the mock turtle should the mock turtle should the mock turtle sh
==================================================
Iteration #: 22
Generating from seed: appens whe
appens where of the same the rabbit to see the end of the same the rabbit to see the end of the same the rabbi
==================================================
Iteration #: 23
Generating from seed:  "why you 
 "why you and the rabbit seemed to her head the mock turtle replied to be to the mock turtle replied to be to 
==================================================
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容

  • HTML标签解释大全 一、HTML标记 标签:!DOCTYPE 说明:指定了 HTML 文档遵循的文档类型定义(D...
    米塔塔阅读 3,232评论 1 41
  • 司令全名叫蒙古国海军司令。 有点常识的人都知道,蒙古国是内陆国家,海军就算有,也不过是虾兵蟹将。作为最高长官,免不...
    四小姐的家阅读 665评论 1 51
  • 有多久没有静下来思考了,太久了,久到已经想不起上一次是什么时候了。最近,发现自己的拖延症已经是越来越严重了,进入到...
    行走在时空的迷茫人阅读 222评论 0 0