基因测序学习收获

最近在学习基因测序相关的内容，目的是想弄清以下问题：

一个病人的基因测序数据有多大的数据量？

完成一次基因测序需要多长时间？

基因测序比对模板基因是从哪里来的？

基因测序对算力和存储有什么具体的要求？

基因测序的具体步骤？

基因测序产生的文件是什么样的？

基因是什么？它的载体是什么？是如何编码的？

为此除了使用搜索引擎进行搜索外，还专门买两本书进行学习。一本是华大基因CEO尹烨写的《生命密码》，写的不错，但对于我的帮助不大。另外一本是浙江大学生命科学研究院教授王立铭老师写的《上帝的手术刀--基因编辑简史》，这本书不仅写得精彩，我从中找到了很多想了解的内容。

关于基因的一些基础知识

1）基因一词的来历

在古希腊哲学家的眼里，遗传的本质是一种叫做“泛生子”（pangene）的微小颗粒，这种肉眼见不到的颗粒存在于先辈的体内，并通过交配传递给下一辈，因此下一辈具有和先辈同样的容貌、性格等。

提出“泛生子”解释的哲学家之一叫德谟克利特，他也是原子论思想的创始人，所以也不难理解，他为什么认为基因是一种“颗粒”了。

后来，神父孟德尔通过豌豆杂交实验证明了遗传因子的存在。到了20世纪初，遗传因子被重新命名为“基因”（gene），这明显是从“pangene”简化而来的。而中国第一代遗传科学家谈家桢先生将“gene”翻译为“基因”，意思是携带遗传信息最基本的因子。

2）基因的载体

基因是生命的密码，存储和运输这个密码的载体是DNA。DNA就如同我们平时使用的“U盘”，盘中存储着关于生命秘密的密码文件。近百年来，科学家首先做的事情是找到“U盘”，然后破译“U盘”中的密码文件。

DNA分子是由四种脱氧核糖核苷酸分子组成，这四种分子也被称为碱基（base），分别为A、T、G、C四种。DNA就是由这四种碱基首尾相连形成的超长链条。

众所周知，DNA具有双螺旋结构，也就是说DNA是由两条长链组成的，这两条长链上的碱基按照严格的规则进行配对，A总是与T配对，G总与C配对。因此，只要知道一条DNA链上的碱基排列顺序，就可以预测出另外一条长链上的基因顺序了。

3）基因编码的秘密

地球生物中的蛋白质分子由20种氨基酸小分子首尾相连形成的长链，这与DNA类似。而DNA的作用就是指导这20种氨基酸分子按照一定的序列组成各种各样的蛋白质（排列组合有20的20次方种），从而形成各种千差万别的生物。

DNA分子由4种碱基组成，物理学家伽莫夫根据数学理论猜测，三个相邻碱基形成一个氨基酸密码，组合方式有4的3次方（64）种。实际情况确实如此，地球上所有生命都使用了3碱基密码来指导氨基酸的装配序列和蛋白质的生产。

因此可以说，一个基因是由3个碱基编码而成的。

关于基因测序的基础知识

1）人类基因组

人类基因组含有30亿个“碱基对”（base pair 通常简写为bp）序列，大约有2-3万个基因。在我们的每一个细胞深处，都含有这样的基因组，它们负责制造数万种功能、性状各异的蛋白质，从而决定每一个细胞、每一个组织和器官、每一个人类个体的性状。

因为人类基因组有30亿个“bp”，如果一个1个“bp”算为1"bit"，那么30亿“bp”就有3Gb的数据量（注意是小b）。

2）测序深度

测序深度是基因测序产生的bp数与基因组中bp数的比值。简单来说，就是对每个碱基进行测序的次数。测试深度为30×，也就是说对基因组反复做了30次测序。

对基因进行多次测序的目的是为了降低错误率和假阳性率，确保测序的质量。

人类基因组采用的30×测序深度，因此会产生3Gb×30=90Gb的数据量；

现在健康人的全基因组测序一般是30X，肿瘤样本可能更高，达到70-100X。健康人的全外显子测序一般是100X，肿瘤样本一般是160X-200X。

3）人类基因组需存储的数据量（以下内容引用自：https://www.jianshu.com/p/bf871522ea20）

人类基因组采用30倍的测序深度，产生90Gb的raw数据，而这些数据是存储在fastq文件中的，fastq文件会对基因数据添加解读和权重数据，加上这些解读数据，全基因组的存储空间占用为190GB左右。