这次疫情,我本来不想讲科普。毕竟我不研究冠状病毒,而这方面专家和医生的科普都很多。但前几天看到所谓“新冠病毒不太可能是自然进化的”的传言,论据无比扯蛋,居然还有自媒体煞有介事地解读,广为流传。我真的是气到发抖,忍不住临时写了这篇。
事情发生在1月31日,一群印度科学家上传了一篇论文,标题是《Uncanny similarity of unique inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag》,大白话翻译过来就是:
新型冠状病毒(2019-nCoV)的刺突蛋白里有几段独特的插入序列,这些序列和人的艾滋病病毒HIV1里的两个蛋白质gp120和Gag序列很像,而且这种相似性一般不太可能发生!!!
大新闻吧?刺不刺激?!
但是,注意了,我前面说的是“上传”了一篇论文,而不是“发表”了一篇论文,因为这篇论文是被放在生物类论文预印本网站bioRxiv上的,而这个网站,谁都可以上传论文!!!
是的,你没有看错。不要求数据真实,不要求试验严谨,不要逻辑严密,不要求同行评审,什么都不要求,只要有还没正式发表的生物类论文,就可以往这个网站上放!
bioRxiv这个网站,本来是用来给科学家们储存还未正式发表的论文草稿(行话叫“预印本”)的。因为科研论文的发表要经过严格的同行评审,时间可能很长。这么一拖,有时候就有其他人做出了类似的研究,最后算起成果来,难免会有些纠纷。而有了bioRxiv,大家就可以在第一时间把论文草稿上传,最后算起发现的先后,也有个客观的依据。
所以,这个网站本质目的就是保存一个科学发现的时间点。至于这个发现本身是真是假,靠不靠谱,是之后论文发表的同行评审来评价的,不是bioRxiv这种网站的要求。
今天我上bioRxiv,看到它上面也特地出了醒目的提醒:
所以说,这篇广为流传的论文,压根就没有正式发表,并不一定可靠。更要命的是,它的结论也有明显的漏洞,根本站不住脚!
它里面的主要论点,就是找了新型冠状病毒蛋白质里的4段序列,去数据库比对了一下,然后说:这4段序列在其它冠状病毒里都没有,却在人艾滋病病毒HIV1里有高度相似的序列。
出于严谨,我自己也去数据库比对了一下这4段序列。下面是我检索时用的一些信息,供专业的小伙伴指正探讨,不感兴趣的小伙伴可以略过:
NCBI Standard Protein BLAST
数据库选择:非冗余蛋白质数据库,non-redundant protein sequence (nr)
生物:病毒,viruses(taxid: 10239)
比对算法:blastp
下面是我比对的结果。那篇论文里一共提到了4段序列,我一个个地说,保证解释清楚。
第1段序列:
这段序列有6个氨基酸长,下面的图里面是比对结果,按照相似度从上往下排列:
除了新型冠状病毒本身,相似度最高的确实是HIV1。但其实仔细看的话,下面的其它病毒相似度也很高,右边的各项分数都和HIV1是一样的。
这里标出的两个其它病毒是链球菌噬菌体,一种感染细菌的病毒,其实后面还有更多其它病毒,因为截图大小关系没有截进来。这说明什么?说明这个序列在多种病毒里都广泛存在,在HIV1里有,压根不足为奇。
另外,这里HIV1的相似序列看着好像特别多,但其实只是多个不同毒株里的同一个蛋白质。不同毒株的区别,大概就像重庆人和四川人,略有区别但相差不大,只是在数据库里会分开列出来。HIV1被研究得很多,分离出来的不同毒株也多。所以虽然看着多,但并不能说明什么。
第2段序列:
这段序列也是6个氨基酸,还是按照相似度从上往下排列:
这第2段序列,除了新型冠状病毒以外,还在蝙蝠冠状病毒里存在,序列完全一样。什么?那篇论文里不是说在其它冠状病毒里没有的吗?我就想问,脸疼不?!
HIV1当然也有,屈尊第4。后面一大堆其它各种病毒,序列相似度都是100%。再次说明:这段序列在各类病毒里都可以找到,HIV1里有不稀奇!
第3段序列:
这段序列是最长的一段,有12个氨基酸,依然按相似度从上往下排列:
和上一个类似,比对出来,除了新型冠状病毒,最相似的其实是蝙蝠冠状病毒!
HIV1呢?不好意思,截图里没有!
我往下拉到第97个病毒,终于找到了HIV1,相似度只有60%:
放着那么多有100%一致序列的病毒不提,偏偏来说HIV1这个只有60%相似的,我很好奇那篇论文到底想干嘛?
第4段序列:
有段序列有8个氨基酸,咱们还是按相似度从上往下排列:
HIV1这次倒是榜上有名,不过只排第11位,相似度只有87.5%。前面好几个其它病毒,序列相似度都是100%。
还是那句话:放着有100%相同序列的病毒不提,偏偏那HIV这个不足100%的来说事儿,到底是什么居心?!
好了,4段序列咱们都比较完了,总结一下:
1. 这4段序列都在很多病毒里面有,并不是HIV1特有的。而且,对于部分序列(3和4),有很多病毒都比HIV1相似性高得多。
2. 序列2和3在蝙蝠冠状病毒中也存在,并不是在新型冠状病毒2019-nCoV里突然出现的。
3. 综合上述信息,新型冠状病毒有可能是由蝙蝠冠状病毒演化而来。 由这几段序列得出“人造”或者“实验室改造”的结论,不仅不合理,还非常不负责任。
最后,关于这篇漏洞百出的论文,最新的消息是:作者已经表示自愿撤稿,回去修改。
我想,我们也已经大概清楚,这篇所谓的“论文”,究竟是怎么回事了。
PS:
其实bioRxiv上的那篇论文刚上线的时候,国内并没有那么多人注意,我只从几个学术圈的朋友那里听说了一些相关探讨。真正引发全网关注的,还是2月1日的一些自媒体文章。有的自媒体文章甚至言之凿凿地说:
再翻回去看看那4段序列的比对,有理有据个毛线啊!明明漏洞百出好不好!!!
有的公众号文章作者表示自己不是生物专业,那么就请克制住自己bb的冲动,或者在开口前先请教专业人士,可以吗?
现在疫情当头,消息又多又杂,如果知道自己可能不够专业,就请不要随意公开放话。要知道,你的一篇10万+,可能造成多少人的误解和无谓的恐慌!
我希望我们的文字是帮助抗疫的武器,而不是射向大众的暗箭。
愿疫情尽早得到控制,愿亿万家庭终得安康!
参考资料:
1. Pradhan,P., et al. Uncanny similarity of unique inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag. bioRxiv 2020.01.30.927871; doi: https://doi.org/10.1101/2020.01.30.927871
2. NCBI BLAST 数据库:https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome
本文首发于公众号“科普不烧脑”,转载请联系作者。非授权转载或抄袭将依法追究。