基因组学是过去、现在和将来一段时间的热点。我们《分子生物学》课程包含了较大比重的基因组学方面的内容(4个课时,2020年拟缩减为3个课时)。设计了3部分内容,genome map,read genomes and write genome。其中第三部分write genome,计划是讲述基因编辑等技术(与开设的《植物基因编辑创新实验》课程对应),受课程时间有限,因此没有专门准备。
5 Genome maps
在第4章中,我们了解到从DNA形成染色体的过程。对任何一个生物的遗传信息,都是ATGC的碱基序列,将人类基因组的十亿个ATGC字母打印出来(真的有人做过:http://www.bio-itworld.com/2012/12/28/encyclopedia-genomica-UK-scientists-print-book-of-life-in-130-volumes.html),得到的就像一本“天书”,包含了各种各样的”密码“。因此,需要将染色质和基因组中碱基序列破解,“画”成各种易于理解和查阅的图谱。我们讲述的图谱含4个部分:遗传图谱,物理图谱,序列图谱,和“多组学"图谱。
下图是NCBI网站的人类基因组图,可以浏览一下,染色质的”带型“图,遗传图,物理图,序列图。下面还有基因组注释后的基因结构信息,基于RNA-seq的基因表达信息,基因序列变异信息等。
1. 遗传图谱 (genetic map,或者linkage map)
以具有遗传多态性的位点为遗传标记,以遗传距离为图距的基因组图谱。遗传标记可以是基因或其他分子标记,图距单位为cM。
如果把染色体看成一段公路,遗传标记就是路上的“里程碑"或者“地标”。我们在路上可以看到多种路标,如路碑、地标建筑等等唯一性的东西都可以),染色质上的遗传标记也有多种,可以是基因或者一段序列。在对基因进行定位时,可以说离xx标记有多少cM,两个基因之间有多少cM。这里用到的距离单位时摩尔根,需要利用杂交实验、根据分离比来测量。既然是杂交实验来测量遗传距离,“遗传标记“要有显性和隐性,或者说要有多态性。
遗传标记:可以是等位基因,比如控制花色的等位基因
分子标记:RFLP标记
两个个体的DNA用一种限制性内切酶切割后可能产生不同长度的片段。这是由于个体间DNA序列的差异。比如图中,左边的个体有3个Hind III,而右边个体的一个序列发生突变(mutation),只有两个Hind III。 因此HindIII切割DNA后,左边是2个片段,右边只有一个片段。
RFLP连锁作图和基因定位
如何克隆基因。相对染色质而言,基因只是其中很小的一段序列。借助分子标记,我们可以将基因进行精细定位,并最终确定目标基因在基因组上的位置和碱基序列。这是如何完成的,我们可以通过亨廷顿症基因的克隆来了解RFLP是如何帮助基因克隆的。
见《分子克隆》,郑用琏等译,P791-794
2. 基因组的物理图
以已知序列的DNA片段为标记(序列标签,sequence-tagged site, STS),以DNA长度为单位的基因组图谱。
图距的测定:利用基因组文库。物理图谱的构建就是将基因组文库中的DNA片段排序、定位,获得覆盖染色体的连续重叠群(contig)。一般的过程是:获得基因组文库--> 文库中每个DNA片段的“指纹” -->将文库中的DNA片段排序、拼图-->获得物理图谱。
3. 基因组的序列图
获得物理图谱后,就可以通过基因组测序来获得序列图谱。这里需要大家学习人类基因组测序计划的流程,了解为什么人类基因组测序为何会是如此大的一个工程。
现在利用二代、三代测序,可以跳过基因组文库和物理图谱的构建,直接对基因组进行从同测序(denovo sequencing)。
4. 基因组的“多维”图谱。
通过解读DNA的碱基序列携带的信息,转化为各种图谱。
3D基因组:染色质空间结构和互作信息。
转录组:基因的表达信息。
蛋白质:表达产物的信息
代谢组:代谢物的信息
表型组:大规模自动化技术,获得生物的各种表型信息。