Qlearning教你的机器人认错

一、引言

本文借助Q-learning简单的实现一个机器人认错的demo,先一睹效果:



Qlearning机器人

为了简化问题,笔者给它预设了三个答案:

['你管我', '我没错','我错了']

让它随机选择回答,然后通过笔者给它的反馈,它自己判断哪个回答会得到较好的反馈...最后它发现回答“我错了”会得到笔者的夸奖,此时,再问它同样的问题的时候,它就会选择反馈较好的答案。

二、实现原理

本案例基于Q-learning实现(本文简要说明了实现过程,如果需要进一步理解的请参考相关文献),简单的来说就是告诉机器人:

在当前状态下进行什么样的回答得到的价值回报最大

比如某同学现在放学了,他有两个选择:回家预习明天的功课和去网吧打游戏,而此时他老爸告诉他了,回家预习就给他买玩具车,打游戏就得挨揍,所以他选择了回家预习,到了第二天放学,他又想起了打游戏,于是继续在预习和打游戏中徘徊,但他思考了一下,继续预习得到玩具车的可能性更大...

上述例子中,放学了就属于某同学的状态S,预习和打游戏是两个他可以选择的行为A,玩具车和挨揍就是他的奖惩R(玩具车为1,挨揍为0),假设某同学一开始什么都不知道,他只能通过不断尝试两种行为,然后通过老爸给他的奖惩对比判断放学了到底该干嘛,判断的价值函数如下:

价值函数

Q(s,a)表示状态S下做A动作得到综合价值,该价值是对于整体而言,眼观较为长远

R(s,a)表示状态S下做A动作得到价值临时价值,该价值着眼于眼前利益

\gamma maxQ(s',a')表示状态S下做A动作后进入s'状态,然后在s'状态下根据前几次的经验预估计有可能得到的最大价值,即预测未来价值,未来价值的可信度需要打个折扣,故乘\gamma (0-1之间)

\alpha 表示学习率

如何理解这个公式呢

本次S下进行A动作得到的综合价值=上次S下进行A动作得到价值+(本次S下进行A动作有可能产生的综合价值-上次次S下进行A动作得到价值)

=上次S下进行A动作得到价值+本次和上次对比的差距

思路如下:

1、建立一个表格Q-table准备记录状态S下做A动作得到价值

2、随机选择一种方式A去尝试,试试老爸会给玩具车还是打一顿(⊙o⊙)…,得到R

3、尝试完以后,直接思考明天放学后是预习得到玩具车的可能性大还是被打的可能性大(环境反馈)

4、根据判价值函数更新 Q-table

5、回到2、继续不断地选择A,从第二次开始,大部分的选择根据Q-table中的最大价值动作来选,留一小部分的可能性去随机尝试其他动作

三、代码实现

1、构建Q-table


2、动作选择函数

3、执行动作后反馈函数


4、学习过程


四、总结

本文做了一个简单的机器人自学实验,为编程爱好者提供一些乐趣,编程并非所传的那么枯燥,思之所向,码之,乐至!从中也可以看出,程序也可以设计得像人一样,通过引导而走向一定程度的智能。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351