最近在学习基因测序相关的内容,目的是想弄清以下问题:
一个病人的基因测序数据有多大的数据量?
完成一次基因测序需要多长时间?
基因测序比对模板基因是从哪里来的?
基因测序对算力和存储有什么具体的要求?
基因测序的具体步骤?
基因测序产生的文件是什么样的?
基因是什么?它的载体是什么?是如何编码的?
为此除了使用搜索引擎进行搜索外,还专门买两本书进行学习。一本是华大基因CEO尹烨写的《生命密码》,写的不错,但对于我的帮助不大。另外一本是浙江大学生命科学研究院教授王立铭老师写的《上帝的手术刀--基因编辑简史》,这本书不仅写得精彩,我从中找到了很多想了解的内容。
关于基因的一些基础知识
1)基因一词的来历
在古希腊哲学家的眼里,遗传的本质是一种叫做“泛生子”(pangene)的微小颗粒,这种肉眼见不到的颗粒存在于先辈的体内,并通过交配传递给下一辈,因此下一辈具有和先辈同样的容貌、性格等。
提出“泛生子”解释的哲学家之一叫德谟克利特,他也是原子论思想的创始人,所以也不难理解,他为什么认为基因是一种“颗粒”了。
后来,神父孟德尔通过豌豆杂交实验证明了遗传因子的存在。到了20世纪初,遗传因子被重新命名为“基因”(gene),这明显是从“pangene”简化而来的。而中国第一代遗传科学家谈家桢先生将“gene”翻译为“基因”,意思是携带遗传信息最基本的因子。
2)基因的载体
基因是生命的密码,存储和运输这个密码的载体是DNA。DNA就如同我们平时使用的“U盘”,盘中存储着关于生命秘密的密码文件。近百年来,科学家首先做的事情是找到“U盘”,然后破译“U盘”中的密码文件。
DNA分子是由四种脱氧核糖核苷酸分子组成,这四种分子也被称为碱基(base),分别为A、T、G、C四种。DNA就是由这四种碱基首尾相连形成的超长链条。
众所周知,DNA具有双螺旋结构,也就是说DNA是由两条长链组成的,这两条长链上的碱基按照严格的规则进行配对,A总是与T配对,G总与C配对。因此,只要知道一条DNA链上的碱基排列顺序,就可以预测出另外一条长链上的基因顺序了。
3)基因编码的秘密
地球生物中的蛋白质分子由20种氨基酸小分子首尾相连形成的长链,这与DNA类似。而DNA的作用就是指导这20种氨基酸分子按照一定的序列组成各种各样的蛋白质(排列组合有20的20次方种),从而形成各种千差万别的生物。
DNA分子由4种碱基组成,物理学家伽莫夫根据数学理论猜测,三个相邻碱基形成一个氨基酸密码,组合方式有4的3次方(64)种。实际情况确实如此,地球上所有生命都使用了3碱基密码来指导氨基酸的装配序列和蛋白质的生产。
因此可以说,一个基因是由3个碱基编码而成的。
关于基因测序的基础知识
1)人类基因组
人类基因组含有30亿个“碱基对”(base pair 通常简写为bp)序列,大约有2-3万个基因。在我们的每一个细胞深处,都含有这样的基因组,它们负责制造数万种功能、性状各异的蛋白质,从而决定每一个细胞、每一个组织和器官、每一个人类个体的性状。
因为人类基因组有30亿个“bp”,如果一个1个“bp”算为1"bit",那么30亿“bp”就有3Gb的数据量(注意是小b)。
2)测序深度
测序深度是基因测序产生的bp数与基因组中bp数的比值。简单来说,就是对每个碱基进行测序的次数。测试深度为30×,也就是说对基因组反复做了30次测序。
对基因进行多次测序的目的是为了降低错误率和假阳性率,确保测序的质量。
人类基因组采用的30×测序深度,因此会产生3Gb×30=90Gb的数据量;
现在健康人的全基因组测序一般是30X,肿瘤样本可能更高,达到70-100X。健康人的全外显子测序一般是100X,肿瘤样本一般是160X-200X。
3)人类基因组需存储的数据量(以下内容引用自:https://www.jianshu.com/p/bf871522ea20)
人类基因组采用30倍的测序深度,产生90Gb的raw数据,而这些数据是存储在fastq文件中的,fastq文件会对基因数据添加解读和权重数据,加上这些解读数据,全基因组的存储空间占用为190GB左右。