2022年11月30日,美国人工智能研究实验室OpenAI推出了由人工智能技术(AI)驱动的自然语言处理工具ChatGPT。在推出的短短5天内,注册用户数量超过了100万,而到2023年1月底,ChatGPT的月活用户突破了1亿,缔造了史上增长最快消费者应用的神话。
ChatGPT的一夜爆红将AI这个本就火热的词汇烘托到了一个新的高度。而在此之前,人们对AI讨论的高潮还要追溯到2016年,AlphaGo战胜人类围棋世界冠军的时刻。ChatGPT的出现加速了对AI认知曲线在第一阶段的攀升,一时间AI仿佛很快将变得无所不能。更有甚者认为AI很快会替代大部分人的工作,造成大量失业;AI很快会产生自我意识,威胁人类安全(不过毕竟州长的《终结者》确实是我们难忘的童年回忆)。
在科研领域,AI的影响同样迅速扩张。2023年9月,《Nature》封面刊登了《AI如何改变科学》的相关文章,深入讨论了AI如何帮助重塑科学事业。根据《Nature》的分析表明,Scopus 数据库中在标题或摘要中提及人工智能或人工智能相关关键词的论文比例目前为8%,而十年前为2%。
AI确实正在改变科研领域,这包括生物学、物理学、数学和社会科学等各个学科。从在数据中寻找模式的机器学习技术,到可以从大量文本和代码中生成真实合成输出的最新通用算法,人工智能工具正在加快研究步伐,为科学探索提供新的方向[1]。2023年末,《Nature》也众望所归的把年度十大Highlight中的一个席位给了ChatGPT。新英格兰医学杂志集团(NEJM Group)更是迅速出手,创办了全新期刊《NEJM AI》。
除了顶级期刊的出手,科研圈子里也传播着各种利用AI发表论文的佳话。其中最著名的就是美国田纳西大学健康科学中心的一名放射科医生Som Biswas,自从ChatGPT给Biswas打开了一扇新世界的大门,4个月时间里,Biswas 已经用ChatGPT编写了至少16篇论文,其中5篇发表在4种不同期刊上[2]。然而,近几天甚嚣尘上的AI翻车事件,也给我们带来更多的思考。2月13日,西安的3名脊柱外科医生在《Frontiers in Cell Development and Biology》发表的综述文章《Cellular functions of spermatogonial stem cells in relation to JAK/STAT signaling pathway》[3],刊发不到3天,由于插图过于离谱引起热议,并引来超过30万的阅读。争议之下,期刊迅速撤稿,并公开致歉。
身处于科研服务行业将近十年的时间,也想从我们日常使用AI的变化和体验中,以不同的场景举例,聊聊现阶段的AI到底给科研和论文发表带来了什么?
文献资料查询
犹记得当年读博期间,查阅文献的主力是学校图书馆购买的Web of Science数据库、Pubmed和Google Scholar。在写文献综述时,如果想要找一个文献被谁引用了,最常用的方法是翻Pubmed里面的“Cited by”,然后在长长的列表中仔细甄别相关的文章。然而,随着AI的发展,改变了费时费力的操作,虽然Pubmed和Google Scholar仍是最常使用的文献查询资源(自从毕业后再也不能白嫖Web of Science了)。但基于AI的Paper Linker也成为了日常频繁被使用的“神器”。AI推荐文献和关键词高度关联,经典文献根据关键词筛选出来该领域必读文献,核心文献则是AI推荐文献与经典文献重叠共引的文献,可视化的圈圈更大。这样在AI的帮助下,我们一眼就可以看出检索领域中那些重要的文章。而这仅仅靠“Cited by”的支持是难以实现,且不精准的。
文献解读
ChatGPT本就是自然语言处理工具,在此之上自然开发出了文献解读的工具,比如ChatPDF[4]。在这个号称“Chat with any PDF”的网站中,上传你想要了解的SCI文章的PDF文件,然后你就可以问它任何关于这篇文章的问题,并得到回答。甚至,在文章中涉及的特定概念,即使文章没有展开定义,当你询问后,它也可以在PDF外的网络中查找到并作答。AI工具ChatPDF可以实现快速了解文章主要内容和主要结论的目的,这极大提高了我们文章阅读和理解的效率。然而,基于我自己使用的经验,我用的是“了解文章”这个词,如果我们想要准确的扣细节,准确度就未必达到我们的预期了。比如,我想让ChatPDF帮我总结某篇单细胞文章中细胞注释用的所有特征基因,却很难得到满意的结果(不过近期我们还是会专门讲讲ChatPDF的使用,别忘了关注我们呀~)。
生信代码编写
曾经在ChatGPT刚刚推出的时候,我们一度担心ChatGPT自动生成的分析代码抢走了我们生信分析同事的饭碗。然而,实际情况是他们都还安心的在公司加班敲着键盘,既然大家都还在,那AI对生信代码编写的影响他们最有发言权,所以这段内容都是我和他们中午一起吃饭时问出来的。目前,我们生信同事对ChatGPT的使用频率是每天、多次。主要使用场景包括编写文本处理的脚本、分析报错排查bug、问问某个分析点还有什么替代的分析软件。其中,前两个场景涉及到具体代码,我们来具体说说AI能起到什么作用。
首先是编写文本处理的脚本,这里大家注意生信同事用AI编写的脚本主要是“文本处理”,通常返回的是几句Shell,或者简单的Python脚本。这些场景的使用中,通过对结果的简单加工,AI已经可以解决80%-90%的问题。但我们的分析点开发和主流程串写,始终是生信同事辛苦人工执行的,这样才能达到项目的要求和更好的效果。在流程开发的过程中,或者项目分析过程中,代码报错是普遍存在的。我自己上学时写代码,有些报错真就几天也找不到原因(通常是R版本问题,懂的都懂,哭~)。分析报错排查bug,也是生信同事常遇到的场景,这一点上,AI通常可以解决30%-40%的问题。
文章撰写和润色
这一点上,我觉得还是挺有发言权的,原因有二:差点被AI坑了、真金白银花过钱。先说说差点被坑的事情,虽然我从来没考虑过用AI从头撰写一篇论文。但是背负着微信推文撰写的我,曾经试图希望ChatGPT帮我总结一下“单细胞测序分析在代谢重编程中的应用,并列举5篇SCI文章为例”(这里说明一下,用的是免费的ChatGPT3.5)。ChatGPT一本正经的回答了我的提问,不仅先进行了一番归纳总结性的陈述,还清清楚楚罗列了5篇文章的标题(甚至还有DOI,他真的我哭死~)。然而,本着严谨的态度,我用文章的题目搜了一下Pubmed,搜不到!再搜了一下Google Scholar,搜不到!再搜一下DOI,搜到了一篇题目完全不同的文章(他真的我哭死~)!
再说说,真金白银为AI花过钱。一直看到各种网站推出AI论文写作,迫于好奇心的压力,几个月前忍痛花了100多大洋看看这葫芦里到底卖的是什么药。说起来用法也简单,只要输入一个论文题目。然后就自动生成了多个大纲,接着选择一个自己心仪的大纲,就可以开始生成论文,从交钱到论文生成,不到20分钟。客观的评价一下结果,完全不能用(仅代表我使用的那个平台结果,样本量过小,不能代表整体水平):首先是字数达不到论文要求,客服解释是大纲生成的层级和标题数量不够。其次是撰写的内容更偏主观描述,准确性存疑,且客观数字很少。最后是引用文献年份比较老,且仅个位数几篇。我们都知道ChatGPT3.5的训练数据截止日期是2022年1月,ChatGPT4.0是2023年4月。在生物学研究飞速发展的今天,ChatGPT训练数据的更新速度确实存在一些延迟。但我们也不可否认,如DeepL这样基于AI的翻译工具[5],可以很好的辅助我们完成文章的语法修改和润色。
我相信我一定不是AI使用最熟练,最精准的人。但我相信这些日常科研工作中的例子,可以反映AI对广大科研工作者的影响。从上述内容中,简单总结现阶段的AI到底给科研和论文发表带来了什么:
1) 对于大数据归纳整理的效率飞跃式的提升,在这个过程中可以比人工处理更加综合、全面;
2) 对于论文内容的快速阅读、主要内容提取、主要结论的理解,提供高效和交互式的协助;
3) 对于科研中遇到的问题进行询问,可以快速得到较为全面和完整的答案,无需自行在网络中到处搜索查询;
4) 对于已有文章手稿的语言修改和润色,特别是对英文语法的纠错,做到锦上添花;
5) 对于科研思路的启发,AI通过丰富的数据训练,更有可能提示我们未曾想到的研究方向和思路。
相信随着AI不断的发展完善,辅以更加海量的训练数据,势必在科研和论文发表中发挥越来越多的重要作用。但我们也应该认识到,现阶段AI生成的内容和数据等的准确性、严谨性往往差强人意。在科研领域,目前我们还无法放心的完全依赖AI产出的结果。对于AI生成的内容需要足够的经验来辨别、监督、把控,否则很可能带来类似近期撤稿文章这样贻笑大方的结果。
沃林科研院,我们会开辟AI科研应用专栏,让您在AI科研发展的过程中不掉队!
参考资料
[1] https://www.nature.com/immersive/d41586-023-03017-2/index.html
[2] https://healthimaging.com/topics/artificial-intelligence/chatgpt-helps-radiologist-churn-out-16-papers-4-months
[3] https://www.frontiersin.org/news/2024/02/16/frontiers-statement-concerning-the-article-cellular-functions-of-spermatogonial-stem-cells
[4] https://www.chatpdf.com
[5] https://www.deepl.com/translator