为你写诗



基于 Tensorflow 实现自动作诗(古诗)机器人。文本的 Demo 是踩在巨人 Tensorflow 的肩膀上,参考 char-rnn-tensorflow 实现。

本文将简单介绍 Demo 的使用、数据预处理过程(即是 Tensor 生成过程)、训练过程和诗歌生成的过程。至于 RNN 模型相关,概念好多,对于半路出家的笔者还需要时间扣扣细节,查查资料,以免写出来误人子弟(捂脸)。文中涉及到的相关概念如有偏颇或错误,请各位大神不吝赐教,批评指出,这里先谢过。

相关 Github 源码


版权声明:本文为 frendy 原创文章,可以随意转载,但请务必在明确位置注明出处。


有图有真相:

001.png

原理



将古诗转成张量 Tensor,使用 Tensorflow 的 RNN 模型进行训练,Flow 起来。


环境



Tensorflow 1.0.1

可参考《 Win 10 安装 Tensorflow 踩坑记


使用方法



下面是本文 Demo 的使用方法,相关参数可在脚本里自行修改调整。

1. 训练
python3 trainer.py
2. 生成诗歌

2.1 随机生成:

python3 generator.py

2.2 藏头诗生成:

python3 generator.py --prime 执子之手
002.png

数据预处理



预处理生成 Tensor,这里笔者用大家都熟悉的《悯农》来举例分析:

** reading text file =
^锄禾日当午,汗滴禾下土。谁知盘中餐,粒粒皆辛苦。$
** counter = dict_items([('汗', 1), ('$', 1), ('滴', 1), ('午', 1), ('苦', 1), ('粒', 2), ('。', 2), ('土', 1), ('辛', 1), ('日', 1), ('知', 1), ('中', 1), ('皆', 1), ('当', 1), ('餐', 1), ('禾', 2), ('^', 1), ('锄', 1), (',', 2), ('盘', 1), ('下', 1), ('谁', 1)])
** vocab_size = 23
** chars = ('粒', '。', '禾', ',', '汗', '$', '滴', '午', '苦', '土', '辛', '日', '知', '中', '皆', '当', '餐', '^', '锄', '盘', '下', '谁', '*')
** vocab = {'辛': 10, '滴': 6, '午': 7, '苦': 8, '谁': 21, '粒': 0, '。': 1, '土': 9, '汗': 4, '日': 11, '知': 12, '中': 13, '皆': 14, '当': 15, '餐': 16, '禾': 2, '*': 22, '^': 17, '锄': 18, ',': 3, '盘': 19, '下': 20, '$': 5}
** tensor = [[17, 18, 2, 11, 15, 7, 3, 4, 6, 2, 20, 9, 1, 21, 12, 19, 13, 16, 3, 0, 0, 14, 10, 8, 1, 5]]

今天有朋友问,张量到底是什么?这里引用百度百科的描述,张量源于力学,是矢量概念的推广,矢量是一阶张量。本文的 Demo 是把大量诗歌转换成了二阶张量(矩阵)来表示。


训练数据准备



由于数据量大,机器可能不够用(比如内存不够等等),因此分批训练还是必要的。此外涉及到模型持久化相关的,这里也不赘述啦。这里想提一个生成训练数据时的细节,笔者纠结了很久:

ydata[:-1] = xdata[1:]

x 和 y 要错一位?为什么需要这样处理?查了很久,原来 rnn 的输入和输出要错一位。这里说明什么?说明理论还是不能马虎的,找时间还是要深入啃啃 rnn 的原理。


模型参数



其实下面怎么设置还是有学问的,后面有时间还是得做做几组对照实验。

参数 说明
rnn_size rnn 的 cell 内神经元数目
num_layers rnn 层数
model rnn 类型,这里笔者选用的是 lstm
batch_size batch 大小(多少批数据)
num_epochs epoch 数目(一批数据有多少个)
save_every 保存的频次
grad_clip 梯度 clip(防止梯度爆炸)
learning_rate 学习率,决定每一步学习的步长
decay_rate 学习率削减时用到的参数
... ...

训练模型



这里笔者直接摘出核心,其实采用的是 softmax 回归模型来给不同的字符对象分配概率,如下所示:

self.logits = tf.matmul(output, softmax_w) + softmax_b
self.probs = tf.nn.softmax(self.logits)

表示成矩阵如下:

001.png

进一步写成表达式如下:

002.png

是的,就是 MNIST 手写数字分类问题里那个 softmax 回归模型,点这里看相关推导,笔者没能啃进去(捂脸)。


生成 Sample



下面是数据流变换过程,还是以大家都熟悉的《悯农》为例,这里笔者以字符 “锄” 开头。其实,下面一系列变换直接照搬了 char-rnn 里随机选择字符的方法,为什么这么处理?还望有大神不吝赐教,这里先谢过。

** vocab = {'^': 6, '土': 21, '汗': 4, ',': 3, '午': 7, '锄': 10, '谁': 19, '辛': 14, '粒': 0, '苦': 17, '知': 16, '当': 9, '下': 11, '日': 20, '皆': 15, '。': 2, '禾': 1, '盘': 5, '餐': 12, '$': 18, '中': 8, '滴': 13, '*': 22}

** chars = ^锄

** x = [[ 6 10]]
sess.run([self.probs,self.final_state],{self.input_data: x,self.initial_state: state})

** probs[-1] = weights = 
  [ 0.04201746  0.05162039  0.05662962  0.03021749  0.02953894  0.03858508
  0.03475175  0.04856787  0.05444941  0.0520597   0.02933978  0.03519193
  0.03243973  0.05847431  0.03798598  0.03890398  0.05775708  0.04891997
  0.05474302  0.0344351   0.04930111  0.04917176  0.03489855]
t = np.cumsum(weights)

** t = 
  [ 0.04201746  0.09363785  0.15026747  0.18048497  0.21002391  0.24860899
  0.28336075  0.33192861  0.38637802  0.43843773  0.46777752  0.50296944
  0.53540915  0.59388345  0.63186944  0.67077339  0.72853047  0.77745044
  0.83219343  0.86662853  0.91592962  0.96510136  0.99999988]
s = np.sum(weights)

** s = 0.9999998807907104
sample = int(np.searchsorted(t, np.random.rand(1)*s))

** sample = 7

** vocab[sample] = 午

好了,到这里我们的结果已经生成为 “锄午”。接下来以 “午” 为输入,同理预测下一个字符,遇到 “,” 或者 “。” 则结束本句生成即可。


文末诗一首,送给看到文章的你:

万树旦已见,事值逾苍林。
如何求圣恶,意意具华时。

001.png


qrcode_card.png


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容