Science Feb 2018
【计算机科学】
作者:Matthew Hutson
去年(2017年),加拿大蒙特利尔大学(U of M)计算机院的科学家们急于展示一种新的语音识别算法,他们想把其与由知名科学家设计的基准算法进行对比。唯一的问题是:基准算法的源代码没有被公开。研究人员不得不根据已公开的部分进行重现。但蒙特利尔大学实验室的博士生Nan Rosemary Ke说,他们无法使自己推算的版本与基准算法宣称的性能相匹配。“我们尝试了两个月,但没有任何进展。”
蓬勃发展的人工智能(AI)领域正在努力应对可重现性危机,如同10前类似的危机困扰着心理学、医学和其他领域。人工智能研究人员发现许多关键结果很难被重新验证,这将引领一种新的研究方法和发表协议。Nicolas Rougier表示:“我认为,其他领域的人可能会认为,正因为我们有代码,所以可重现性是有一定保证的。他是波尔多的法国国家计算机科学与自动化研究所的计算神经学家。“可是事实并非如此”,上周,人工智能发展协会(AAAI)在路易斯安那州的新奥尔良市举行了一次会议,会议的议程上提到了可重现性,一些团队解析了这一问题,其中一个团队还提出了缓解这一问题的其他办法。
根本问题在于研究者常常不愿意分享他们的源代码。在这次人工智能发展协会召开的会议上,挪威科技大学特隆赫姆分校的计算机科学家奥德.埃里克·甘德森报告了在过去几年中,对两场顶级人工智能大会上发表的论文中提出的400种算法的调查结果。他发现只有6%的发言者分享了自己的算法。只有三分之一的人共享了数据,也只有一半的人分享了“虚拟程序代码”--受限制的算法摘要。(很多情况下,在期刊上发表的人工智能论文中也没有代码,如在《科学》和《自然》杂志中。)
假使可以获取并运行原代码,它可能也不会尽如人意。在被称为机器学习的人工智能领域,计算机从经验中获得专业知识,而算法的训练数据会影响其性能。Ke觉得正是因为不知道语音识别基准的训练数据,导致她的团队试验失败。“从一个程序运行到另一个有一定的随机性,”她说。她又补充说,当然,如果你“非常非常幸运,可以碰巧运行到一组非常好的数据”。“大家通常会这么报告。”
在人工智能发展协会(AAAI)的会议上,蒙特利尔麦吉尔大学计算机的科学家Peter Henderson演示了试错学习的人工智能,其表现不仅对所使用的确切代码高度敏感,而且对开始训练时产生的随机数也高度敏感,还有“超参数”——这些设置不是算法的核心,但会影响算法的学习速度。他在不同的条件下运行了几个这种“强化学习”算法,得出截然不同的结果。例如,一个虚拟的“半猎豹”——一个运动算法中使用的简笔图形——可以在一个测试中学会冲刺,但在另一个测试只会在地面瞎蹦跶。Henderson说,研究人员应该记录更多的关键细节。他说:“我们正在努力推动这个领域有更好的实验程序和更好的评估方法。”
Henderson的实验是在一个名为Gym的强化学习算法的试验平台上进行的,该平台由加州旧金山的一个非营利组织OpenAI所创建。OpenAI的计算机科学家约翰·舒尔曼(John Schulman)帮助创建了Gym,他说,这有助于标准化实验。“在Gym之前,很多人都致力于强化学习,但每个人都在为他们的实验创造各自的环境,这使得不同论文之间很难比对的结果,”他说。
在AAAI会议上,IBM研究部门展示了另一个协助复制的工具:一个可以自动创建未发布源代码的系统,它可以节省研究人员几天或几周的时间。这是一种人工神经网络——一种由多层小计算单元组成的机器学习算法,类似于神经元——再重组为其他的神经网络。它扫描一篇人工智能研究论文,寻找构建神经网络的图表或表格,将这些数据解析成层再进行连接,然后用新的代码生成网络。该工具现在已经复制了数百个已发布的人工神经网络,IBM正计划将它们置于一个开放的在线存储库中。
荷兰埃因霍温科技大学的计算机科学家Joaquin Vanschoren创建了另一个资源库作为准服务器:这个网站名为OpenML。它不仅托管算法,还托管数据集以及超过800万次的实验及其相关细节。Vanschoren说:“你进行的实验很大程度都没有记录假设和决定。”“即很多细节都没有被详细记录下来。”
心理学在某种程度上建立了一种支持复制试验的学术环境来应对可重现性危机,人工智能也开始这么做了。2015年,Rougier协助创办了(ReScience)--一本致力于研究复制的计算机科学杂志。大型神经信息处理系统会议已经开始在这个网站上链接论文的源代码。Ke在协助组织一项“关于可重现性的挑战”,这个项目将邀请研究人员尝试重现论文并提交给即将召开的会议。Ke说,将近100篇论文正在进行重现,研究人员大部分是学生,他们的工作会帮助他们获得学分。
然而,人工智能研究人员表示,激励机制仍与可重现性性无法匹配。他们没有时间在对每一种情况测试算法,论文中也没有足够的篇幅来记录他们尝试的每一个超参数。由于许多没有同行评价的论文每天都在arXiv的网上发表,他们感到了无法快速发表论文的压力。许多人不愿意报告失败的重现性案例。例如,在《科学》杂志(ReScience),迄今为止所有发表的重现性结果都是成功的案例。Rougier说,他有一些被告知的失败实验,但其他年轻的研究人员常常不希望被认为是在评价资深的研究人员。这也是Ke不会透露基准的语音识别算法背后的研究人员的名字的原因。
Gundersen认为这种学术环境需要改变。“这不是什么面子的事儿,”他说。“而是实事求是的事。”
名词解释:
Reproducibility--可重现性
可重现性:不同实验室的不同分析人员用相同分析对同一被测对象测定结果之间的相对标准偏差。
AAAI-人工智能发展协会