原文:My Criteria for Reviewing Papers
作者:Eric Jang
译者:尹肖贻
NeurIPS 2020 论文评议结果公布了。评议统共9454份,接受论文1900篇(约占20%)。无论论文接受与否,对每位作者与评委的辛勤劳动,我都表示衷心的感佩!
在机器学习研究圈里流传着一个公开的秘密:NeurIPS还是其他什么会议,接受与否犹如赌运气。现今的“学术出版”业(Academic Publishing),几乎与实证研究脱节。评委们就像的剧院里众口难调的观众,各有主张,根据不同的标准褒贬论文的不同侧面。下面列一些评委可能采取的标准:
正确性:这是科学论文的最低要求。本文提出的主张是否在科学意义上正确?作者是否有意无意地在训练过程中使用了测试集的信息?如果论文中提出了一种算法,作者是否有力地表明,该算法的卓越性出于他们陈述的理由?
新知识: 论文必须为该领域贡献新知识。“新”可以体现为:新算法、新实验数据、现有概念的新解释等等。综述性的论文也应包含新知识,比如将多个工作的脉络统一起来,从而形成整体观点。
恰当引用:阐明该论文与先前工作的联系,以及当前工作的创新之处。一些审稿人会拒绝那些未能充分引述先前工作、或与先前工作的区分度不足的论文。
SOTA结果: 要求论文(1)提出一种新算法,以及(2)在公认的测试基准(base-line)上达到最好结果(State-of-the-art)。
仅SOTA是不够的:没有评委会因为论文实现SOTA而进行惩罚,但是有些评委希望论文不仅要超越基准线,还要满足列表中的更多项标准。一些评委甚至刻意抨击ML领域的“SOTA”文化。如果一篇论文仅仅符合SOTA结果而没有其他特色,会被认为是“创新不足”或“浮皮蹭痒”(incremental)。
足够简单:许多研究人员声称更喜欢“简单的想法”。但是,“大道至简”和“浅陋琐碎”之间的分野并不总是显而易见。
足够复杂:一些审稿人认为,倘若论文没有亮眼的算法或花哨的数学证明,论文就是“琐碎无聊”或“不够严格”。
立意清晰、理解深刻:一些评委关心算法背后的机制,期待作者能够深入理解机器学习,而不仅是实验的成功。这项与“正确性”密切相关。
选题品味: Julian Togelius(NeurIPS20的评审委员会主席) 指出 ,他判过的很多论文,都不足以令他兴奋。也许只有他自己知道“令人兴奋”的内涵,不过我揣测他的意思是,在选择研究问题和解决方案时,要具有“品味”。
足够困难:一些审稿人拒绝使用太简单的数据集(如MNIST)做测试基准的论文。“足够困难”是一个不断变化的目标,它隐含着一个期望,即随着该领域发明更好的方法,测试基准必须变得越来越难,以推动人们研究尚未解决的问题。同样,基于简单测试基准的SOTA方法并不总是基于更困难的测试基准(更接近于实际应用)的SOTA。侥幸的很,我 引用数最高的论文 是在MNIST仍可以作为测试基准的时候撰写的。
出人预料:即使论文给出不错的结果,审稿人也可能声称论文稀松平常,实验结果“显而易见”。举个例子,有的论文将物体识别的通用算法应用在新的数据集上。考虑到计算机视觉领域的流行观点认为有监督的物体识别问题已经被大部分解决,那么上述论文可能会被认为“太简单和直接”。(物体识别被解决这个观点并不准确,但是在测试基准反映不出来。)
我特别喜欢违反直觉的论文,我也正自努力效仿。 我最喜欢的一些论文,不仅没有达到SOTA,甚至没有提出任何新算法,但结论足够违反直觉:
- Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet
- Understanding Deep Learning Requires Rethinking Generalization.
- A Metric Learning Reality Check
- Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations
- Adversarial Spheres
实用:与“足够困难的问题”密切相关。一些评论者认为,仅是虚拟的游戏就可以作为强化学习算法的测试平台,而另一些评论者(通常来自典型的机器人社区)则持有不同观点,他们认为Mujoco Ant (一种虚拟的四足蚂蚁)和真正的四足机器人所面临的挑战是完全不同的,因为前者的实验结论并不能直接影射后者的表现。
符合道德:一些评委将机器学习的发展视为建立更好社会的手段,拒斥与他们的AI伦理不符的论文。今年NeurIPS要求论文作者考虑“更广泛的社会影响”,这表明机器学习社区正在认真对待这项要求。例如,如果论文试图仅从面部特征推断犯罪,或执行自动武器瞄准,那么无论采用哪种方法,论文都将被拒绝。
不同的审稿人将上述内容分配不同的优先级,其中许多标准都是高度主观的(例如问题偏好、道德规范、简洁性等)。对于上述每个标准,都有可能存在反例,甚至是引用数很高或很有影响力的论文,也违反其中的一些标准,可能因为它们对其他标准符合得很好。
我的标准
在此分享我个人对论文的审查标准。接受或拒绝的意见, 主要在于正确性,以及是否包含新信息。 即使某篇论文研究方向相对小众,在十年内几无可能成为热门,只要论述了其他材料没有提过的新知识,我也将投票接受它。
上述为抽象原则,这里展示几则具体示例:
- 如果你在论文简介中提到某种强化学习的类人探索,并发明了一种算法以完成功能,那么我希望在实验部分看到的经验证明,该算法确与人的行为相似;
- 如果你的算法无法实现SOTA,我对此并不介意。但我想看到你仔细分析算法何以无法实现SOTA,以及算法的动机;
- 当论文提出新算法时,我更愿意看到该算法的效果比以前的工作更好。但是,如果该论文对“为什么它没有比以前的工作得分更高”的事实进行了正确的分析,我仍然会投票接受;
- 如果你声称新算法由于X原因而工作得更好,那么我希望看到实验表明这一结果不是由于替代假设X1、X2而引起的。
我必须指出,正确性难以验证。在过去的五年中,许多度量学习主题的论文在顶会中录用,然而只有 Musgrave等 指出,这些论文之间的实验基准不一致。作为审稿人,我必得提醒自己放低身段,奉命唯谨。我已经审阅了十多个会议和研讨会的论文,坦白地说,凭靠阅读我仅能了解25%的内容。作者们花了数十乃至数百个小时,设计和研发论文和实验方法,而我只花几个小时来确定论文是否“科学正确”。我的道行,还不足以掌握严格评估正确性的能力。
不管对于论文作者还是审稿人,一个常挂嘴边的好问题是:“什么实验可以让人确信论文的假设是正确的,而不是由于某些替代假设?作者是否检查了所有的替代假设?”【译者:要做充分的Ablation Study。】
我认为,我们应该接受所有“足够好的”论文,与此同时允许评委保留额外的主观标准,诸如“品味”和“简洁性”,以用于论文评奖、讲演、或会议展示。我不知道是否应该让每个人都认同我的个人标准,不过作为审稿人,我明白无误地申明接受/拒绝论文的标准,对于论文作者和其他审稿人不无裨益。
非传统研究人员的机会
如果你有兴趣获得指导,学习如何更好地阅读、评论并撰写论文,我想补充一下可循例联系到我的时段,当前订在每星期六上午,通过Google Meet线上举行。在过去的三个月中,我保持对六位同学进行指导,效果不错。
任何不具有传统研究背景(当前不处于攻读机器学习博士学位)的人都可以联系我预约时间。你可以将之视为访问助教,以获取研究工作的帮助。以下项目我可以提供,这些帮助项目完全无偿:
- 如果阅读论文时遇到困难,我可以尝试与你一起阅读,并提出我的想法,就像我正在审阅它一样;
- 如果你是新手,不知道从哪里开始,我可以提供一些入门练习,如阅读/总结一些经典论文,复现论文结果等;
- 我可以尝试帮你建立良好的研究品味。如果你的研究方向有些激进,我可以帮你降低研究失败的风险;
- 有关软件工程研究的建议。我写代码已逾十载,我可以从经验中给你快速完成实验的意见;
- 咨询你自己撰写的论文的意见,假装我是观看你的海报(poster)的观众;
- 帮你为撰写的论文拟定切入主题的吸人眼球的“故事”。
不需要从业经验,需要的只是做出更好研究的愿望。我在周六上午的时间对访客的接受率是100%,所以请勿羞于启齿!