强化学习第1课:像学自行车一样的强化学习

机器学习算法主要可以分为监督式,非监督式,强化学习三类。

在监督式学习中,我们有数据 x 和标签 y。我们想要找到一个函数来连接 x 和 y。可以选择决策树,线性回归等模型,然后训练这些模型使损失函数达到最小。

例如我们有一个横幅广告预测点击率的问题:

横幅的特征可以是,主题,想要推广的内容,挂在哪个页面,会浏览这个页面的用户的特征。
想要预测的变量只有一个,就是用户是否会点击这个横幅广告。

这时我们可能想要用一些监督式学习的模型,但是有个问题是我们并没有那么多数据,没办法知道每个横幅每个页面每个用户的行为。

虽然在没有数据的情况下,也可以想办法用监督式学习

例如,可以随机发一些广告,随机的给一些人,随机的选择位置,来生成一些数据,
然后记录用户是否点击进去,不过大多数情况下用户是不点击的。
这样有了这些数据后,就可以应用一些算法,进行预测。

但是有个问题,就算你用这些数据进行预测了,训练了模型了,但是并不敢直接用这个模型得出的决策,
就算用户第一次点击了你发送的广告,但是如果太频繁地发送同样的广告,就会失去用户的信任,
所以我们可能想要尝试一些对用户有益的内容,想要让用户更开心,这样用户可以停留更久,你也可以收获更多的信任,
这种情况下会有很多变化,需要不断的调整。如果继续用监督式方法,可能会产生非常糟糕的结果。

例如,圣诞节前一周开始训练我们的点击预测模型,由于是圣诞节,每个人都会看关于圣诞节礼物的内容,我们的模型也会展示很多相关的广告,那么很可能在这段时间里,有一些相关物品获得了非常多的点击,获得了很多利润,但圣诞节结束后,模型并没有办法重新调整,于是继续展示圣诞节的横幅广告,就没有机会展示其他的广告内容。
所以不要百分百相信你的模型,可以留一部分数据是随机地展示 top100 的横幅或一些其他的广告。

但这种解决方案,就像是在用胶带去填补,虽然有足够的胶带的话肯定能解决问题,
但是会有更多的隐藏问题出现,

这时就可以用强化学习,
一句话概括就是通过反复试验来学习

就像你学习自行车,不会去通过看一本书来学习,不会去看 1000 个样本,看每种场景是如何骑车的,然后就会了。

而是只需要有个自行车,想要学习如何骑就去骑,虽然可能会失败几次,可能会受伤,但是通过受伤,最终就学会了,并且骑得越来越好。


学习资料:
Practical Reinforcement Learning


推荐阅读 历史技术博文链接汇总
http://www.jianshu.com/p/28f02bb59fe5
也许可以找到你想要的:
[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]


Hello World !
This is 不会停的蜗牛 Alice !
🐌 要开始连载强化学习系列啦!
今天开始我们一起来每天 2 分钟,get 强化学习的一个小知识吧!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,591评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,448评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,823评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,204评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,228评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,190评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,078评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,923评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,334评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,550评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,727评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,428评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,022评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,672评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,826评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,734评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,619评论 2 354

推荐阅读更多精彩内容