AlphaGo的应用推广价值

        AlphaGo团队用深度学习和强化学习的结合来做两种任务的判别,即来判别现在所在的棋盘是好是坏,同时来预测未来。通过对大数据的分析,让我们对“现在状态”有了一个靠谱的理解。

        AlphaGo自我博弈就是自己玩游戏,得到不断反馈,然后更新策略,经过无数次比赛,最后会得到一个好策略,最终输出是一个行为策略。在一个封闭场景中,可以用自我博弈的模拟方法得到更多的数据。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容