AlphaGo团队用深度学习和强化学习的结合来做两种任务的判别,即来判别现在所在的棋盘是好是坏,同时来预测未来。通过对大数据的分析,让我们对“现在状态”有了一个靠谱的理解。
AlphaGo自我博弈就是自己玩游戏,得到不断反馈,然后更新策略,经过无数次比赛,最后会得到一个好策略,最终输出是一个行为策略。在一个封闭场景中,可以用自我博弈的模拟方法得到更多的数据。
AlphaGo团队用深度学习和强化学习的结合来做两种任务的判别,即来判别现在所在的棋盘是好是坏,同时来预测未来。通过对大数据的分析,让我们对“现在状态”有了一个靠谱的理解。
AlphaGo自我博弈就是自己玩游戏,得到不断反馈,然后更新策略,经过无数次比赛,最后会得到一个好策略,最终输出是一个行为策略。在一个封闭场景中,可以用自我博弈的模拟方法得到更多的数据。