原创 montreal 生信人 2018-08-18
不知道大家对于生物信息学论文里代码的可重复性和正确性有过怎样的担忧?有没有对文章天花乱坠的结果表示过疑虑?又是否遇到过生信软件在使用时与其描述相去甚远的情况?
日前,为了解决以上这些问题,Nature集团宣布自8月开始,联手code ocean,在其旗下的三大子刊Nature Methods, Nature Biotechnology and Nature Machine Intelligence中试运行一项新的针对于生物信息学、计算机科学等领域审稿和文章发表的策略——在文中提供可运行的、有完整功能的程序(fully-functional and executable code accompanying their articles)。
此举的目的有三点,即方便其他人:
1. re-run the analyses
2. reproduce the results
3. re-use the code and data to build on the work
其实,这不是Nature第一次在数据和代码透明度方面给作者施压了。原文中写到(1),自2014年开始,Nature集团就要求在其旗下杂志发表文章的作者,如果有对于文章结论关键的代码或者算法,在文中需提供一个被称为“Code Availability”的声明。该声明里,作者须注明能否以及如何取得这些代码或算法相关的code。2016年,Nature集团进一步加强了对于原始数据共享的要求,要求其旗下杂志刊载的所有文章都要加入data availability statements这一个部分。其实,不仅是nature,很多杂志社都有诸如此类的规定。
说实话,小编当年曾饱受该要求之苦。当时小编的一篇manuscript已被接受,在page proof阶段编辑要求在文中提供原始数据和代码信息以供有需要的读者进行查阅。于是小编就写上raw data and codes are available on request。结果被编辑告知必需提供相关链接。于是小编就将全部程序上传到了实验室的网站上。谁知这一次还是不行,理由是最好要上传到使用较为广泛的专用数据库。
小编当时对于类似的raw data数据库完全不了解,便翻看杂志上其他文章。恰好该杂志刚刚online的一篇文章中写到将部分data存到了一个叫作Dryad的数据库内。小编即刻就将需要的材料上传到Dryad里面。不料到了最后一步发现上传资料到该数据库需要缴纳相关费用。这时小编发现了Dryad有一个“发展中国家”waiver的选项,也就是说如果资料上传者来自“发展中国家”,则可以豁免上传所需的手续费。然而小编找了半天也没在列表里搜到CHINA,才知道我们国家,至少在Dryad那里,已摘掉了”发展中国家”的帽子。无奈之下小编只好求助老板解决这笔小额开销。而老板难为情地告诉小编实验室囊中羞涩,但还是十分有坚定地说“资源肯定有,你自己找找吧”。其实,他说得对。类似的数据库有不少,其中不乏不收取上传费用的,只不过小编当时要文章心切,没有认真搜索。经过一番波折之后,小编将要求的数据提交到figshare,也终于通过了编辑苛刻的“数据公开”审核。
当然,即使nature集团对数据共享有如此严苛的规定,对其旗下杂志那么多文章的管理也难以面面俱到。就在几天前,一位国外学者在社交媒体上声称自己在向一篇刊发在某nature子刊的文章作者索取原始测序数据时遭拒,原作者表示:该部分数据在另一个项目和paper中另有重用,所以暂时不方便公开。在科学家们的帮助下,该讯息在短短两天内已收获39次转发,此外还有9个回帖,基本都表示了对其的支持。有趣的是,回帖中还包括nature集团的编辑,看来这件事有望迅速解决,在此不得不感慨社交网络的威力。
那么nature这次试运行的互动式发表是通过什么平台得以实现的呢?答案就是code ocean。
Code ocean是一个基于Docker的致力于推进计算可重复性的平台。它可以提供使用者以数据储存的空间,适合代码运行的环境,从而使得用户可以轻松地在云平台上运行代码。如此一来,大家对文章描述如果有任何问题,在code ocean上一试便知,相信生信文章的审稿和阅读都会有全新的体验吧。
小编从未有在code ocean上运行代码的经历。不过,著名生物信息学家、BWA和Samtools的开发者李恒,日前对nature集团的这一举动公开表达了自己的看法。在推中,李恒虽然支持主体思路,但对code ocean能否达成其目标表示担忧,理由是due to severely limited functionality,并提议bioconda作为a much better solution。
BTW:李恒可能将于近期离开Broad institute并在同处大波士顿区的Dana-Farber Cancer Institute组建自己的实验室,现正招兵买马中。
值得注意的是,目前该项活动处在试运行阶段,而且为用户可选的。也就是水,作者可根据实际情况选择是否进行该操作。如果选择使用code ocean的互动模式,审稿人原则上会有每月100个小时(默认值)用以运行代码和程序(1)。此外,如果文章接受,相关资料会以DOI(digital object identifier)的形式在文中被引用。
对于nature这项举措,你是否支持在其他杂志的生信类文章中推广呢?对采用的平台有什么好的建议?对这种模式又有哪些担忧呢?
引文
1. Mark Staniland, Nature Research journals trial new tools to enhance code peer review and publication, http://blogs.nature.com/ofschemesandmemes/2018/08/01/nature-research-journals-trial-new-tools-to-enhance-code-peer-review-and-publication
作者原创,原载于生信人公众号