应该学生物信息学的N个理由——来自科学网薛宇教授博文
http://blog.sciencenet.cn/blog-404304-883906.html
今年三月底与众好友在华农开“第二届国际•华中地区生物信息学研讨会”,参会的学者大多来自华中及邻近省市。虽然是地区性的会议,可大会报告的水平并不低。台湾生物资讯学(就是咱大陆讲的生信,各叫各的) 的领袖李老先生一听说有年轻人开会,二话不说开着保时捷911就飙到桃园机场,然后飞过来给大家讲网络药理学的进展。这位李先生咱以前写博客讲了很多次,顶有乐趣的学者,和咱大陆的郝先生是多年的好朋友,两人年轻的时候都搞理论物理,后来俩人都觉得不好玩,于是大约是20年前,两位同时转做生信,或者说,理论生物物理,因为那时候生信这个名词还没有普及。后来我问他,说您为啥转生物啊?李先生扔下报纸:好玩儿啊!得,搞了这么多年就为了个玩啊!
李先生的爱好多,比如说开跑车啦…呃,这个爱好比较费钱;飙摩托,还飙的特别快;骑自行车、跑步、游泳。这回见了面,上来第一句:对了,我又找了个女朋友,你知道吗?我说你女朋友不是Data吗 (一条台湾黑狗,据说是名种)?李先生沮丧,说我出去访学半年,寄存在同事家里,等回来之后同事太太坚决不还了…感慨:真是没有天理啊!所以只好又找了一个,不过没有Data漂亮。我安慰李先生,说,Data跑了就跑了吧,反正您也没喂过它。李先生抗议,说我偶尔有喂好吧?
好,讲完闲话说正事儿。话说第二个大会报告是师兄作的。上来就忽悠大家,说现在大家应该做生信,然后幻灯上列了几条理由,吧啦吧啦讲半天,讲的有趣。会后讨论的时候,师兄就讲你应该看看Casey Bergman (英国曼彻斯特大学的研究员,主要做计算和进化生物学)写的博文“应该做生信/计生的博士或博后的前N条理由”(Top N Reasons To Do A Ph.D. or Post-Doc in Bioinformatics/Computational Biology)。会后咱回去认真看了博文,全文比较长,这做简要的编译和介绍,有兴趣的也可以直接看原文。
话说Casey曾经给即将攻读分子生物学博士的学生作过报告,忽悠他们应该考虑做生信研究。Casey说我这么满怀激情的忽悠学生,是因为我强烈的认为21世纪的生物学家多多少少要懂点儿计算,并且接受计算的训练最好的时间就是在攻读博士或博士后期间。所以Casey决定在之前报告的基础上,继续完善并增加忽悠的理由。Casey博士指出虽然计算生物学 (Computational Biology) 和生物信息学 (Bioinformatics)有重大区别,但他不做区分,两者在概念上可以等价。
关于计生和生信的区别,这个咱以前也写过博文,大致是鸡蛋炒西红柿和西红柿炒鸡蛋的区别。斯坦福大学的Russ B. Altman教授有博文表示这俩根本就不是一码事(BIOINFORMATICS& COMPUTATIONAL BIOLOGY = SAME? NO)。Russ教授何许人?显然是牛人,在生信圈儿里跟Michael Levitt是一个级别的。Russ教授的贡献很多,其中之一是选了44篇生信领域经典的论文,这个文章列表基本没有争议。其中文章列表的第一篇就是Russ本人关于蛋白质结构预测的论文,第五篇也是Russ的论文。Micheal Levitt的论文当然必须有入选,也是两篇,其中一篇的第一作者是耶鲁大学的Mark Gerstein教授。所以Michael拿诺奖了之后,Mark很高兴,到处炫耀说他博后的老板拿奖。Russ认为计生是利用计算的方法来研究生物学,目标是得到新的生物学知识,因此这是科学;生信则是设计能够解决问题的工具、算法和数据库,目标是建立分析生物数据的有用工具,所以是工程。因此Russ有时候做科学 (计生),有时候做工程 (工程)。那么你肯定要问,啥时候做科学,啥时候做工程呢?兄弟我的回答是:跟中国的生物学家交流你一定要说你在做科学,不然会被鄙视;跟其他学者交流你要说你在做方法,不然照样会被鄙视。所以同济大学的勇哥总结的好:不做科学,同事看不起;不做方法,同行看不起。大致如此。
Casey表示,虽然他这个理由的列表主要是为了忽悠分子生物学背景的学生转做生信,但其实也适用于忽悠其他方向比如生态学和神经科学等方向的学生或学者。因此Casey在2012年7月底写了这篇博文,内容如下:
计算是21世纪生物学研究的核心技能。点解?因为生物学正越来越变成一门定量的科学。在过去的三个世纪里,生物学从一门观察性科学转变为实验科学,并即将变为一门数据科学。由于既漂亮又容易搞定的姑娘们早已经被小伙儿们娶回家变成娃儿他妈了(简单的发现已经没有了),想泡既漂亮又难搞的小姑娘们就得有新招了 (仅靠观察和实验作重要发现已越来越难)。在未来,新的发现需要大数据集的支持,以及新分析方法的使用。大数据和复杂模型需要计算技能,想逃避这个现实是不可能的。如果你觉得Casey在玩儿忽悠,不妨听听分子生物学的领军人物、诺奖获得者Walter Gilbert在20年前是怎么说的:若要利用充斥全世界计算机网络的、海量的序列信息,生物学家不仅必须要成为计算机学者,并且要改变解答生命问题的方式。或者听听另一位分子生物学家、诺奖获得者Sydney Brenner的意见:俺已经喋喋不休的劝说大家计算对生物学来说不仅是重要的工具,并且也能够提供分析复杂性的模型…测序技术的发展和广泛应用已经产生了海量的信息,因此对计算机的需求不应该再成疑问。
计算技能是高度可转移的。大家要面对现实:不是所有人读博士或做博后以后都从事学术研究。华盛顿邮报的报道称:生物学和生命科学的博士大约仅有14%毕业后五年内能够获得教职。所以你在博士和博后期间接受的训练,有很高的概率是需要用到学术之外,所以为啥不学学应用度最广的技能?实验技能仅能用于诸如实验室里做实验,或者生物科学相关的医药市场之类的工作 (比如销售),而计算技能不仅搞生物用得着,在其他领域也照样有用。提高你的计算水平不仅能为找工作提供更好的机会,并且能让你终生受益,因为大家的日常生活已越来越离不开计算机。(君不见当年大家蹲马桶都是抱本书,现在清一色的手机、iPad是不?)
计算能够帮助提高你的核心科学技能。生物学本质上就一个杂乱无章并且毫无头绪的领域。那些受过严格训练的生物学家通过漂亮的实验设计和统计分析 (例如Casey搞生态的兄弟姐妹们) 来处理这堆乱麻。但现实情况是大多数生物学家在数据收集和分析方面的习惯并不好。计算会强迫你面对并克服做科研的人为倾向,因此自然而然就发展处核心的科学技能例如:有逻辑性的设计实验,持续的收集数据,设计可重复的方法学,并利用合适的统计方法分析数据。所以即使你不愿放弃实验学研究,计算训练也能提供最好的科学训练并且增强你的实验技能。
应当在博士或博后期间获得新的技能。绝大多数生物学者读博士的时候,实验方面的训练来自高中或大学的学习。所以这些训练一般不是最领先的,你也没有经过更高级的研究来强化你的实验技能,所以一般也就只能自己摸索着训练自己。此外,很多生物学的博士生没有经过科学计算技能的训练,所以也就只会用用Excel或者有图形化界面的统计软件。因此在博士或博后期间,应该接受一些新的、并且你之前木有的训练,获得新的技能。Casey的观点是,学生信最好的时间是读博,其次是博后。这是因为读博士的时候你会有时间,并且你老板有钱有装备来让你瞎折腾,并且这种能够心无旁骛瞎折腾的机会这辈子你也就这一次。博后的时候学生信也蛮好,但合同比较短,要依赖于PI,并且还有要发好文章的压力,这样时间上就没有博士充裕。(当然博后转生信做的好的也有,比如胖子就是博士学天文物理,博后转的生信,所以这个不能算是事儿)
能够在生物学里建立更独特的技能。上面讲了,大多数生物学家接受的都是实验训练,只有很少一部分懂计算。虽然这个现状正在改变,但如果你编程的话,在至少10年内还是很有机会获得竞争的优势,或者从后基因组生物学中获得更多的结果。因为你能拿到其他很多人拿不到的结果,所以事实上你也就获得了脱颖而出的技能,这样争取工作的时候你也就更有竞争力。
兄弟我历来认为,科学家应当要关心历史,但还得面对并研究现实,所以诸如:生信是工具啦,生信不关心生物学问题啦,生信拿着数据胡搞不做实验啦,之类的。这些评论是真的吗?咱可以很负责任的回答:曾经的确是真的。加上“曾经”这俩字的意思是,生信是个快速发展的领域,理念、方法、思想和研究对象都在不停的发生变化。例如我们家豆儿,两个月没回合肥,再回去我妈第一句话就说,豆儿感觉又长大了啊。是吧?我妈初中没念完,都知道思想要与时俱进,各位专家这么高的水平,就甭在那里装Brain damage了好吧?
当然你肯定要问:证据呢?是吧?猜到你要这么问了。证据多得是,比如《N6-甲基腺苷的调控功能:那些27岁的教授们》这篇博文里提到的结合计算和实验分析RNA甲基化的工作,就是典型的生信与实验结合的工作。限于篇幅咱再举三个例子。例如,近期北京中科院计算所赵屹研究员与美国学者合作,在Cell Metabolism上发表论文,利用已有的公共数据做分析,预测了三条特异性高表达、可能有可能的长非编码RNA (lncRNA),并且后续的实验也漂亮的证实了预测结果吗,证明其中一个lncRNA调控肝脏的脂类代谢。当然你看了文章又要讲生信不是主要作者,所以不妨看看清华大学汪小我、谢震两个研究组合作发表在PNAS上,关于内源竞争性RNA (ceRNA) 与miRNA调控的系统生物学以及合成生物学的工作,无论计算模拟还是实验工作都是相当的漂亮和扎实。还不服?去年咱讲过“环形RNA分子:论开挂在生命科学研究中的重要性”,发表在Cell上,这是典型的计算与实验结合的工作之一。当然咱在博文里纳闷了一下说计算方法学有点儿凑合。这不,北京生命科学研究院赵方庆研究组立马在Genome Biology上发表了Ciri算法,能够准确预测环形RNA分子的存在。当然喽,这篇文章不光是计算做的漂亮,实验也是做的非常多、非常扎实。
因此,综上所述,搞生信不做实验不关心生物学问题那已经是过去的事情了。既然过去了那也就没必要老翻黄历,谁熊孩子的时候还没穿过开裆裤啊不是?对吧,得向前看。好,继续上一篇的博文。
================================================================
可以发表更多的论文。博士也好,博后也罢,时间过得都很快。如果你不想被淘汰出局,其实没有太多的时间供你浪费。叔不骗你,生信能够给你的更多,并且能够使你迅速转到进展更快的研究上,而实验经常则是失败,并且更经常是长年累月失败成习惯。因此,一般搞生信的单位时间里发表论文更多。当然喽,江湖上常见的忽悠是,实验的论文更难发表所以也就更有价值 (你信不信,反正Casey是不信),但是大家都清楚的是,论文仍然是科学里的硬通货 (hard currency)。另外,招聘委员会的座右铭“不读文章数数就行”仍然是真实的(你看看,数文章这事儿老外也一样,咱这是与国际前沿保持一致)。并且,一般大家都想看看年轻人是否真有好的想法并且实现,而发表论文就是你能搞定研究的证据。因此生信能让你证明你是个难题终结者,并且帮助你在科学上获得成功。
研究能有更大的灵活性。成为生信学家最酷的事情之一是你的研究不像做实验生物学那样有太多的限制。可能你只是做哪些计算上可做的分析,但这个范围已经足够广阔了,从计算神经生物学到理论生态学,以及两者之间的各种东西。你可以更容易的更换研究题目,但如果你只有实验技能的话那就比较困难。(所以开会的时候师兄就讲,说假如你会抽质粒,那你以后也就会抽质粒) 这种研究的灵活性能够满足你智力上的好奇,或是让你追逐你想做的最新方向。对学生来说,生信研究提供的灵活性(并且还便宜) 能够保证你接受良好的训练,从而在科学生涯早期就做出自己的东西。这个当然很重要,因为越早开始独立做研究,未来也就越容易成功。
工作场所不受限制。有人讲,当需要平衡工作和生活的时候,搞生信仍然能够保证很高的科研产出。实验学家需要围着实验台转悠,但搞生信你可以想在哪里在哪里,在家里通过远程操控计算机也行 (这个我干过,当年读博士那会儿,咱习惯一个人猫宿舍,二锅头喝着,花生米吃着,游戏开着,顺便偶然还看看结果算完了没)。因此这种灵活性能够保证你平衡工作和休息,安然度过生命中艰难的岁月,并且做重大的决定更容易,例如建立家庭,因为你可以把代码提交到计算机上然后回家陪娃儿妈,而不需要惦记泡胶完了是否要赶紧回去转膜。所以Casey的意见是,如果你希望既能搞生物学研究,又能摆平家庭,读生信的博士或者博后会更容易让你实现这个目标。这个不光对女生适用,Casey本人以及他的某个朋友也说,最美妙的事情就是一边做生信研究,一边哄娃儿睡觉,可以在实验室里试试。
计算研究的性价比高。既然公共数据库能够获得海量的数据,生信研究就要比大多数实验工作便宜。这个很重要,主要理由是,第一,搞生信的对基金的依赖度要小,正所谓有钱能做,没钱想办法也能活下去,所以你就不需要成为基金的奴隶,或者耗费大量时间申请基金,可以想做啥做啥,灵活性高。在经济不好的时代尤其重要 (这说的显然不符合咱中国国情啊)。上面提到的是生信研究由于成本可以降低,所以学生可以在科研生涯的早起就开始做对研究,这样你也就不用什么时候都抱着你老板的大腿求指点。第二,性价比高更重要之处在于,当你开始建立自己的研究组时,基金和研究组的规模都受限制但你还得保持产出的延续性,那是得精打细算。最后,生信的高性价比是的发展中国家的学者能够获得与发达国家学者同等的研究机会。因此,Casey认为不光是英国,其他发展中国家的学生和学者都应该考虑做生信,从而不收资助的限制成为顶级的学者。
成功的科学家死在办公室。开个玩笑。如果你拿到PI的位子,那么你会经历助理、副教授到教授到老教授最后到死教授这个历程 (昆明理工大学的好友董的说法)。当然喽,有些勇敢的灵魂们升天了之后还是能找到实验跑回实验室做实验,但这也是稀有品种不是?科研工作者一般习惯坐在电脑前,在办公室里你又舔不到湿实验,但你仍然可以做生信不是?例如Webb Miller指出,引用最多的生信学家历来都是持续做自己的研究,并保证活跃的研究。要记住长期的目标是成为“主要研究员”(Principal Investigator),而不是“名不副实的研究人员”(In Principle Investigator)。因此如果年轻的时候希望做研究,那么问自己:为什么学习不能终生受用的技能,而你实验室其他人则拿来做有趣的发现?
你能够知道为啥这个列表是从0开始。Casey写这篇博文最主要的目的是希望能够讨论更多的做生信的好处。他列了这些条希望其他好的想法也能够加入。(不会真不知道为啥从0开始吧?写程序数组的下标都是从0开始的,至少Perl如此。
Casey的博文,搞生信的大多都赞同。当然也有吐槽的,吐槽的原因是因为大家都赞同,所以要反对。因此有学者2012年8月11日写了个反驳贴:“不应该做生信/计生的博士或博后的前N条理由”(Top N Reasons NOT to do a Ph.D. in Bioinformatics/Computational Biology)。内容不怎么多,就三条:
生信研究有5个级别。参见博文“A beginner’s guide to bioinformatics – part I”和“A beginner’s guide to bioinformatics – part II”。其中,1级为用在线工具分析数据,2级为能安装和运行新软件,3级是可以用Perl之类写脚本程度,4级是可以用C/C++和JAVA之类的语言实现已有算法或改已有的代码,5级是设计并写程序实现自己的算法。Shirley之前写过、我也翻过生信研究的分级,参见“如何成为顶级生物信息学家”,对应关系大致是这两篇博文提到的1-3级是标准1级,即给数据能分析;4级是标准1级里的顶级,即给数据能改改再分析;5级就是标准2级的水平了。我们之前讲过了,标准1级和2级是区分专业和非专业的风水岭,要逾越极其艰难。所以吐槽者打击大家的积极性:除非你达到5级,不然你也就是个看景儿的,你觉得你能达到吗?要达到5级,你很年轻的时候就要有数学天赋哦,在博后的时候想转那可能就太晚了。(国内搞生信的达不到标准2级,这博士咋能毕业呢?)
Casey自相矛盾。Casey第5条说你能发更多的文章,第6条说研究能有更大灵活性,第7条说工作场地不受限制。而第9条则说成功的科学家死在办公室。然后问大家,看出5-7和9的不一致性了没?然后提醒大家,如果没看见,那你这辈子想达到4级以上是没戏了。吐槽者解释说:如果你和数百万的竞争者发表论文都很容易,并且还带孩子,那这些文章还有机会发的好?
生物学是自然科学,计算机仅仅是80年代初产生的新工具。要达到5级生信的水平,你既要写代码,并且可能还得会修电脑,但这样你也就原理生命本身。要成为有影响的生物学家,你也必须要做既脏又费时间的实验。
最后,吐槽者给年轻学生们提出了一些相当有建设性的意见。例如学语言最好是学普通话,并且把生物学论文翻译成汉语,这比学C/C++和JAVA之类的语言要重要的多。各位觉得这个建议是不是超赞?