用机器学习炒币系列之四-无监督学习与强化学习

上回我们说到了监督学习，今天，我们给聊聊机器学习算法的另外两类：无监督学习与强化学习。

无监督学习是用“未标记”的数据描述隐藏结构函数的机器学习任务。由于给与学习者提供的实例没有标签，因此不存在对算法输出的结构的准确性评估——这是区分无监督学习与监督学习、强化学习的一种方式。

下图所示是一个无监督学习的实例：

在本例中，所要实现的是机器阅读。训练数据为一系列无标记的文本数据，由这些无标记的数据训练出函数模型。之后向该函数输入训练数据中的某个文本，则可输出函数模型所理解的文本含义。

强化学习是受行为心理学启发的机器学习领域，涉及智能体如何在环境中采取行动以得到最大累积奖励的概念。这个问题，由于它的普遍性，已在很多学科中进行了研究，例如博弈论、控制论、运筹学、信息论、基于仿真的优化、多智能体系统、群体智能、统计学以及遗传算法。在运筹学以及控制论的研究文献中，强化学习被称为近似动态规划。该方法已研究了最优控制理论，但大多数研究主要关注的是最优解的存在及性质，而非学习或近似。

下图所示是一个强化学习的实例：

在本例中，智能体面对环境中一杯水，假如将之倾倒，则环境会给予一个负的反馈，也就是惩罚；而若智能体将所倾倒的水擦洗干净，则环境将给予一个正的反馈，也就是奖励。由此智能体将不断被往奖励增加的方向进行训练。

那对于我们所要实现预测币价涨跌的“AlphaCoin”而言，应该用哪种算法实现呢？我们发现，其实监督学习与强化学习均可胜任。

例如，我们可以将大量的历史数据中，前几日的币价作为输入，后几日的币价作为输出，以监督学习的算法对网络进行训练；我们也可将前几日的币价作为输入，让网络输出下一步的操作策略（买/卖），若该操作获益，则给予奖励，反之给予惩罚，由此不断进行训练，直至智能体学会最佳操作策略。

好的，今天的介绍就到这里了，咱们下节见。

早赞声明：为方便早赞、避免乱赞，“BH好文好报群”为点赞者、写作者牵线搭桥，实行“先审后赞、定时发表”的规则，也让作品脱颖而出、速登热门！加群微信：we01230123（天平）。