本次学习AlphaGo模拟下棋的策略网络是怎么实现的。
策略网络是使用神经网络模型构建的强化学习能力算法。这个定义怎么理解?首先从机器学习概念说起。
机器学习(Machine Learning,ML)是让计算机从数据中进行自动学习,得到某种知识(或规律),机器学习通常指一类问题以及解决这类问题的方法,如何从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测。
根据训练模型的输入数据不同状况(此处状况个人理解为数据所能表征物理事物的分辨度,也就是数据质量,如果数据质量越高,所需算法越简单,因为算法就是在不断的比对分清楚当前数据所表征的是什么)分为四类:监督学习、非监督学习、半监督学习、强化学习。
监督学习:输入数据带有标注好的分类标签,监督学习将预测结果与输入数据计算结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率,比如分类和回归问题等。常用算法包括决策树、贝叶斯分类、最小二乘回归、逻辑回归、支持向量机、神经网络等。
非监督学习:输入数据没有标注好的分类标签,只能通过算法来推断数据的某些内在规律,比如聚类和关联规则学习等。常用算法包括独立成分分析、K-Means 和 Apriori 算法等。
半监督学习:输入数据有部分标注好的分类标签,学习方式包含监督和非监督学习,常用于分类和回归。常用算法包括图论推理算法、拉普拉斯支持向量机等。
强化学习:强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在最优控制理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在经济学和博弈论中,强化学习被用来解释在有限理性的条件下如何出现平衡。
AlphaGo的策略网络正是基于强化学习的深度神经网络算法。