flapybrid项目总结:

(1)Q_learning:reward表,左边一列是状态,右边是动作对应的奖励。Q表格,一个状态转向另一个状态获得的价值,初始化是为零。计算Q表时,一个状态到另一个状态的价值等于这个动作的及时奖励加上下一个状态他能转移到另外一个状态所获得的最大价值(这个也是查上一次所计算得到的Q表所得到的。)

(2)flapybrid一张图片中一个像素点就对应256种状态,28*28*3这么多像素点所组成的状态太多的,计算不出来它的Q表,所以就用卷积神经网络代替,已连续的4帧转换的二值图作为一个状态,把他输入神经网络来预测出它的两个Q值,动作只有两个上升或者下降,一个动作对应一个Q值,预测的结果(2维的Q值)和动作(二维的0或1的值)点乘,就相当于通过这个动作选择了下一个状态对应的Q值。这是神经网络配合一个动作得到的Q值,

而这个动作下实际的Q值可以通过下一个状态来计算,由于是在训练数据中取数,这个下一个已经取好了,它的实际最大Q值可以依据上面Q表格的方法计算出来,动作奖励+下一个状态通过神经网络得到两个输出的中间最大的一个,这就是它能得到的最大的Q值。它和神经网络预测出来的Q值的误差作为损失函数,最后来优化它。

优化好后,网络每次能准确预测出两个Q值,取最大的那个的序号,这个序号对应的action的值为1,另外一个为0。这就相当于给他指出了下一步走的方向。按这样走得到的价值最大,就不会死了。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 深深的绿色作依托,和脚下的石色对比,白白的细沙吊带短裙衬托了主题。披着白色的沙巾是落不落在吊带下方,露出双肩细嫩的...
    雨林中的红叶阅读 266评论 0 1
  • 我爱你,不光因为你的样子,还因为,和你在一起时,我的样子。 ——罗伊...
    流星雨儿下阅读 1,350评论 22 44
  • 我觉得看英剧是个学习英语非常好的方式。而且英剧里面的场景布置,还有各种人物穿着都非常的有诚意。可以当做一部艺术品欣...
    酸菜面阅读 9,841评论 14 46
  • 文 |北苏图片|来自网络 我想你一定和我一样,常常把手边的事情一拖再拖,总觉得我们还有很长久的时光去完成他。我...
    北苏阅读 835评论 2 12