人工智能领域包含众多子领域和流派,主要的3个学派包括符号主义,连接主义和行为主义。其中符号主义又称为逻辑主义,其原理主要为物理符号系统假设和有限合理性原理。连接主义又称为仿生学派,其原理主要为神经网络及神经网络间的连接机制和学习算法。行为主义又称为进化主义,其原理为控制论及感知-动作型控制系统。目前由于计算资源和大数据获取越来越容易,连接主义成为领域的主流并在学术界和产业界都取得了广泛的认可和应用。然而由于深度神经网络结构具有大量参数需要优化,优化的性能取决于标记数据的规模大小。尽管互联网和移动互联网的普及使得数据获取更加便利,可直接应用于训练的标记样本成为算法优化的瓶颈。行动流派的强化学习算法从环境的反馈中进行感知与行动的映射学习,不需要神经网络那样的标记监督样本。2015年,Deepmind结合深度学习和强化学习两种不同流派的模型,提出Deep-Q Networks算法,实现了端对端雅塔力游戏的自主学习,一时轰动学术界。近几年自主智能的发展,很多工作都源自DQN。包括alphaGo、星际争霸AI以及其他很多游戏AI。
那么为什么深度强化学习会成为当今热门的人工智能算法呢?原因有三:第一,正如前面所说,深度强化学习算法是强化学习和深度学习的结合,强化学习通过环境的反馈进行环境行为映射的学习,而神经网络是对非线性映射的拟合,两者结合,模型可自动从环境中获取行动反馈,再用反馈来修正神经网络模型,最终可得到对环境行动趋于正向反馈的模型,在过关游戏中体现为得到较高的成绩和通过更多的关,在对抗游戏中体现为赢取更多的局数。第二,神经网络需要的样本可以从环境中自动获取,解决了标记样本收集成本高难度大的关键问题。第三,无监督信息介入的神经网络学习过程,为走向强人工智能、自主智能等重要方向提供的曙光和可行的方向。
那么到底什么是深度强化学习呢?就是将深度学习和强化学习结合实现从感知到行动的端对端学习的一种全新算法。可以把神经网络想象成大脑,输入是眼睛看到的场景、耳朵听到的命令,输出就是行动,包括了移动、说话等。举个例子,比如一个小孩在学习数数的过程中,大人问他:1+1等于几呀?小孩回答3,大人说不对,在想想,小孩回答4,大人说还是不对,你再想想,小孩回答说2,大人说“对了,小宝儿真聪明”。在这个过程中,小朋友感知的就是一个问题“1+1等于多少”,行动输出就是答案,“2”、“3”、“4”。环境的反馈就是“不对”,“对了”。小孩子在自己知道的数字范围内,比如“1-10”里面不停的尝试,直到寻找到正确反馈的2. 那么他就会记住这个映射。当你下次再问她同样问题的时候,它就能直接告诉你正确答案。深度强化学习和这个过程类似,只是整个学习过程都是计算机内容采用机器编码进行而已。
深度强化学习到底是怎么做的呢?目前主要的方向有两类,第一种叫做基于行动值函数的方法。就如刚才举的例子来说,孩子对环境(大人)的每一个行动(答案),环境(大人)都立刻给出一个反馈(对/不对),小孩子根据这个反馈来不停的调整自己的行动输出直到得到正反馈。第二种叫作基于策略梯度的方法。这类方法不是从每一个行动上进行优化,而是把一系列动作看作一个策略决策动态产生的结果,通过环境对结果的反馈优化系统层面的策略而不是具体的某一个动作。这种方法优势是防止了头痛医头,脚痛医脚,不足就是优化过程中方差太大。
目前深度强化学习还处于初步发展阶段,尽管如此,已经体现出了强大的潜能。在雅塔力的各种游戏中,DQN算法只需要很短的时间就在49款游戏上性能超越人类平均水平。alphaGo更是利用该技术战胜了围棋世界冠军。然而在一些需要宏观策略+微观战术的星际争霸中,深度强化学习训练的AI还无法战胜顶尖高手。但由于其训练不依赖样本,且具有超强的计算速度,相信攻克星际争霸等策略游戏也只是时间问题。