用机器学习炒币系列之四-无监督学习与强化学习

上回我们说到了监督学习,今天,我们给聊聊机器学习算法的另外两类:无监督学习与强化学习。

无监督学习是用“未标记”的数据描述隐藏结构函数的机器学习任务。由于给与学习者提供的实例没有标签,因此不存在对算法输出的结构的准确性评估——这是区分无监督学习与监督学习、强化学习的一种方式。

下图所示是一个无监督学习的实例:

在本例中,所要实现的是机器阅读。训练数据为一系列无标记的文本数据,由这些无标记的数据训练出函数模型。之后向该函数输入训练数据中的某个文本,则可输出函数模型所理解的文本含义。

强化学习是受行为心理学启发的机器学习领域,涉及智能体如何在环境中采取行动以得到最大累积奖励的概念。这个问题,由于它的普遍性,已在很多学科中进行了研究,例如博弈论、控制论、运筹学、信息论、基于仿真的优化、多智能体系统、群体智能、统计学以及遗传算法。在运筹学以及控制论的研究文献中,强化学习被称为近似动态规划。该方法已研究了最优控制理论,但大多数研究主要关注的是最优解的存在及性质,而非学习或近似。

下图所示是一个强化学习的实例:

在本例中,智能体面对环境中一杯水,假如将之倾倒,则环境会给予一个负的反馈,也就是惩罚;而若智能体将所倾倒的水擦洗干净,则环境将给予一个正的反馈,也就是奖励。由此智能体将不断被往奖励增加的方向进行训练。

那对于我们所要实现预测币价涨跌的“AlphaCoin”而言,应该用哪种算法实现呢?我们发现,其实监督学习与强化学习均可胜任。

例如,我们可以将大量的历史数据中,前几日的币价作为输入,后几日的币价作为输出,以监督学习的算法对网络进行训练;我们也可将前几日的币价作为输入,让网络输出下一步的操作策略(买/卖),若该操作获益,则给予奖励,反之给予惩罚,由此不断进行训练,直至智能体学会最佳操作策略。

好的,今天的介绍就到这里了,咱们下节见。

早赞声明:为方便早赞、避免乱赞,“BH好文好报群”为点赞者、写作者牵线搭桥,实行“先审后赞、定时发表”的规则,也让作品脱颖而出、速登热门!加群微信:we01230123(天平)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。