缘起
随着这波人工智能浪潮的兴起,强化学习(Reinforcement Learning,RL)这坛陈年老酒也借势找到了深度学习这个新瓶子,重新吸引了学术界、工业界乃至吃瓜群众的注意力。对于很多人来说,AI闯入他们视野的标志性事件不是2012年AlexNet的横空出世,而是AlphaGo击败李世石引起的轩然大波。可以这样说,深度强化学习(DRL)不仅点燃了世人对AI的热情,而随着CV方向性能瓶颈的出现,作为一个缺点多多、槽点满满的算法框架,DRL正在吸引越来越多的学者前来填坑,从各大AI顶会RL方向文章数量的逐年上升可见一斑。
算法工作者的“知行合一”
如今网上关于DRL的科普文可谓汗牛充栋,图文与公式并茂,paper与代码齐飞。我自知水平有限,无意在DRL科普界班门弄斧。另一方面我认为算法工作者不应只局限在原理层面,看懂很多公式不代表拥有动手能力;也不应满足于跑通toy tasks的demo,知其然不知其所以然,面对实际问题时可能依旧一头雾水。算法工作者的“知行合一”,需要经历从抽象算法原理到广泛动手实践再上升到统一方法论这三个必要阶段,唯有如此才算真正掌握了知识。
我将通过该系列文章,对这两年DRL落地工作中的一些感悟和心得做些粗略总结,若能对读者启发一二则善莫大焉,如有纰漏谬误也真心期待得到大家的批评指正,我深信持续的交流是进步的源泉,也是我写下这些文字的初衷。由于本文的关注点在算法落地上,因此更适合那些有一定强化学习基础的读者,对于尚未入门的新手,强烈建议首先通过其他途径熟悉RL/DRL的基本概念。
源于学术,高于学术
与相对单纯的学术工作不同,DRL落地涉及面相当广。我们的目标是在现实应用中获得实实在在的性能提升,为企业创造肉眼可见的价值,无法自由选择“较弱的baseline”自欺欺人。我们没有像Gym那样现成的虚拟环境可用,需要自己搭建模拟器,定义状态空间、动作空间和回报函数。我们还需要切实考虑算法的实用性,比如模拟器的reality gap是否足够小,对不同应用场景的泛化性如何,模型的训练时间是否可控,inference运算效率能不能跟上,对各种异常、延时和误差鲁不鲁棒等等。套用伟人的句式一言以蔽之,落地来源于学术,又高于学术。
Talk is Not Cheap
我的计划是将从拿到一个新需求到项目落地中的主要环节,分成若干篇来逐一介绍。这些文章里将很少贴公式,也基本不会有代码,所有文字将致力于对方法论的阐述,读者将会看到“so much talk”,但真心希望不要因为我捉急的文字功底而认为它们是 “cheap”的长篇大论。考虑到所涉及的话题较多,因此时间跨度可能比较大,有空的时候我尽量多写。另外由于不能涉及商业机密,必要时会采用通俗的例子加以说明。那么接下来,开始吧~