上回我们说到了监督学习,今天,我们给聊聊机器学习算法的另外两类:无监督学习与强化学习。
无监督学习是用“未标记”的数据描述隐藏结构函数的机器学习任务。由于给与学习者提供的实例没有标签,因此不存在对算法输出的结构的准确性评估——这是区分无监督学习与监督学习、强化学习的一种方式。
下图所示是一个无监督学习的实例:
在本例中,所要实现的是机器阅读。训练数据为一系列无标记的文本数据,由这些无标记的数据训练出函数模型。之后向该函数输入训练数据中的某个文本,则可输出函数模型所理解的文本含义。
强化学习是受行为心理学启发的机器学习领域,涉及智能体如何在环境中采取行动以得到最大累积奖励的概念。这个问题,由于它的普遍性,已在很多学科中进行了研究,例如博弈论、控制论、运筹学、信息论、基于仿真的优化、多智能体系统、群体智能、统计学以及遗传算法。在运筹学以及控制论的研究文献中,强化学习被称为近似动态规划。该方法已研究了最优控制理论,但大多数研究主要关注的是最优解的存在及性质,而非学习或近似。
下图所示是一个强化学习的实例:
在本例中,智能体面对环境中一杯水,假如将之倾倒,则环境会给予一个负的反馈,也就是惩罚;而若智能体将所倾倒的水擦洗干净,则环境将给予一个正的反馈,也就是奖励。由此智能体将不断被往奖励增加的方向进行训练。
那对于我们所要实现预测币价涨跌的“AlphaCoin”而言,应该用哪种算法实现呢?我们发现,其实监督学习与强化学习均可胜任。
例如,我们可以将大量的历史数据中,前几日的币价作为输入,后几日的币价作为输出,以监督学习的算法对网络进行训练;我们也可将前几日的币价作为输入,让网络输出下一步的操作策略(买/卖),若该操作获益,则给予奖励,反之给予惩罚,由此不断进行训练,直至智能体学会最佳操作策略。
好的,今天的介绍就到这里了,咱们下节见。
早赞声明:为方便早赞、避免乱赞,“BH好文好报群”为点赞者、写作者牵线搭桥,实行“先审后赞、定时发表”的规则,也让作品脱颖而出、速登热门!加群微信:we01230123(天平)。