The Genome Sequence of Drosophila melanogaster这篇2000年的Science文章,看上去比较老了,然而这里有一个科学史小故事,首先让我们记住文章的作者J. Craig Venter。
人类基因组计划(Human Genome Project,HGP)是一项规模宏大、跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体(单倍体24条染色体)中所包含的30亿个碱基对的核苷酸序列,绘制人类基因组图谱,达到破译人类遗传信息的目的。在人类基因组计划中,还包括对五种模式生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠。人类基因组计划与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划。
人类基因组计划的发展简史:
——1985年,美国能源部(department of Energy,DOE)形成了“人类基因组计划”草案,率先提出了测定人类基因组全部DNA序列的计划。
——1990年10月1日,经美国国会批准,美国能源部(DOE)与国立卫生研究院(NIH)共同启动HGP。计划投入30亿美元,用15年时间完成该计划,揭开组成人体的2.5万个基因、30亿个碱基对的秘密。
——1999年,中国正式加入到这项研究计划中,承担其中1%的任务,即人类3号染色体短臂上约3000万个碱基对的测序任务。中国因此成为参加这项研究计划的唯一的发展中国家。
——2000年6月26日,参加人类基因组工程项目的美国、英国、法兰西共和国、德意志联邦共和国、日本和中国的6国科学家共同宣布,人类基因组草图的绘制工作已经完成。人类基因组草图诞生,是人类基因组计划成功的里程碑。
——2001年2月15日出版的英国《自然》(Nature)杂志和2001年2月16日出版的美国《科学》(Science)杂志,分别正式公布了由公共基金资助的国际人类基因组计划和私人企业塞雷拉基因组公司的人类基因组全序列数据。
——2001年国际人类基因组组织(HUGO)又启动了一项“纠错补漏”程序,用了2年多的时间将草图丰满起来,最终呈现一幅完整的人类基因组图。
——2003 年4月14日,中、美、日、德、法、英6国科学家宣布人类基因组序列图绘制完成。人类基因序列中的98%获得了测定,精确度为99.99%。
完成人类基因组计划的组织有两家,其中就有我们故事的主角——从不按常理出牌的、凭一人碾压6国科学家的克雷格•文特尔(Craig Venter)。
1946年出生在美国犹他州盐湖城的文特尔,在学生时期成绩烂得一塌糊涂。后来在越南战争中进入海军医院,成为一名医护兵。在最艰难、恶劣的环境下,文特尔对医学和科学产生了兴趣。退役后他重拾学业,学习了3个学期,以全A的优秀成绩考上加州大学圣地亚哥分校。之后的6年时间,他就从一个差点毕不了业的高中生,成为了生理学和医药学的博士。
文特尔毕业后加入了美国国立卫生研究院,但他却感到不自由。不久,1990年人类基因组计划正式启动了,美国国立卫生研究院承担了大量的测序工作,詹姆斯•沃森为负责人。当时主流的链终止测序法效率极低,再加上承办项目的官办机构作风,项目进展堪忧。(早期方法:首先使用细菌人工染色体(bacterial artificial chromosome,BAC)克隆所需要的基因,再制作基因图谱,将不同的基因确定于染色体的具体位置,最后再使用改进的Sanger法进行测序。)
文特尔决定用一种全新的基因测序技术来进行测序工作,即全基因组鸟枪法测序(whole-genome shotgun sequencing,WGS)。先把DNA序列打成碎片,再同时并行读取每一个碎片的序列,最后把这些碎片像拼图一样还原成一整长段DNA。
不过人类基因组计划的专家认为“鸟枪法”不够保险,其中高度重复的序列会导致程序计算出错。所以他们依然坚持使用桑格尔测序法一个个拼接碱基。此时人类基因组计划的负责人也由沃森变成了遗传学家弗朗西斯·柯林斯。
文特尔坚持“鸟枪法”才是最高效的测序办法。几年后,他决定辞职。脱离研究所的文特尔有一个野心勃勃的计划,他想要组建公司,单挑6国科学家,独立完成人类基因组计划。他开始四处游说,宣称他能给基因申请专利,将来就会拿到高昂的专利费。于是真的有公司相信了他。1998年5月,世界上最大的测序仪生产商美国PE Biosystems公司,给了他300台最新研制的毛细管自动测序仪(ABI 3700)和3亿美元资金。文特尔与珀金埃尔默(PerkinElmer,PE)公司合作成立了塞莱拉(Celera)公司,宣布要在3年内完成人类基因组的序列测定,并为测出的基因申请专利保护。此外,文特尔还购买了号称“全球第三”的超大型计算机,用计算机发展出了拼接算法,弥补了鸟枪法准确度不高的缺陷。
文特尔鸟枪法的惊人测序效率,很快就使人类基因计划陷入恐慌。为了阻止人类基因组专利落入文特尔一人之手,时任美国总统克林顿和英国首相布莱尔都不得不出面对做游说工作。不情愿的文特尔只能加入这6国合作组,同意将测得的数据上传到数据库,提供免费下载。
在过去的8年多里,人类基因组计划仅仅完成了3%。可当文特尔加入后,短短3年内,人类基因组计划就完成了90%的基因测定。1999年9月文特尔完成了对黑腹果蝇的测序,而整个过程只用了短短11个月。2000年,文特尔和柯林斯一齐宣布人类全基因组测序草图的完成,但并没有透露是谁先完成的。
由于没有能申请到人类基因组的专利,塞莱拉公司的运营出现了极大的困难,其董事会在2002年决定将文特尔开除。但是文特尔与商业公司的合作客观上推动了生命科学成果的产业化。
故事当然仅供娱乐。下面讲一些正经的东西。
第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法,或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解)。
Sanger法的核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA的合成反应。在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP,然后利用凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。改进的Sanger法为人类基因组计划测序时用的主要技术手段,将4种ddNTP用不同的荧光标记,然后在一个电泳槽中电泳,通过计算机分析不同的荧光信号,从而转化成碱基的排列顺序。
第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。
第二代测序技术以Roche公司的454技术、illumina公司的Solexa/Hiseq技术和ABI公司的SOLID技术为标志。在大幅提高了测序速度的同时,还大大地降低了测序成本,并且保持了高准确性,但其序列读长方面比起第一代测序技术要短很多,大多只有100bp-150bp。
Illumina测序采用的是边合成边测序的方法,主要分为4个步骤:构建DNA文库(把DNA打断成300bp-800bp长的片段,并在两端加上不同的接头);flowcell(测序流动槽,每个flowcell有8个lane,每个lane的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对,文库中的DNA通过flowcell时会随机附着在其表面的lane上);桥式PCR(桥式PCR以flowcell表面所固定的序列为模板,进行桥形扩增,经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多拷贝,这一过程的目的在于实现将单一碱基的信号强度进行放大,以达到测序所需的信号要求);测序(采用边合成边测序的方法,向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP。这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP,这就确保了在测序过程中,一次只会被添加一个碱基。同时在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应)。
当时文特尔使用的全基因组鸟枪法测序,还是利用第一代测序技术。
(全基因组鸟枪法测序:WGS测序对原核生物是有效且高效的,首先生物体的所有DNA被随机切断成几千个碱基对(2kb)的碎片,然后直接克隆到合适的质粒载体中,转化受体细胞,形成克隆,再并行对每一个碎片进行测序,最后将overlap的测序片段拼接组装起来,重建完整的基因组序列。文特尔认为WGS法可以有效地应用于大型真核生物基因组,关键是减轻重复序列对组装的影响(简单序列重复不能在BAC中稳定克隆),即从大的DNA片段的两端进行测序(10kb的片段能够跨越常见的重复序列元件即反转录转座子),得到确认组装整体结构的远程连接信息,以产生正确的组装,并进行缺口填补,得到完整的基因序列。)
参考文献: