基因是一段有遗传效应的DNA(或者说是一段有遗传效应的脱氧核糖核苷酸序列),基因在染色体是线性排列的(就像点在线上),染色体是由DNA和蛋白质组成。
脱氧核糖核苷酸排列成的核酸是DNA(一般是双链),核糖核苷酸排列成的核酸是RNA(一般是单链),两种都是核酸。
基因(DNA)记载着蛋白质上的氨基酸排列顺序,而DNA要通过RNA(mRNA)的转录和tRNA的翻译才产生蛋白质。氨基酸排列成组成多肽,多肽被修整成蛋白质。
蛋白质是由一系列所谓的“氨基酸”分子构建的三维大分子。通常20种氨基酸可形成蛋白质,这些氨基酸可以被蛋白质序列“字母表”中的字母所标记,其中每个字母都是一个氨基酸。
下面是一段蛋白质序列的例子:
ARNDCEQGHILKMFPSTWYZ
通常DNA和mRNA携带遗传信息,但是蛋白质却是生命体中的实际上的基础。每个生物体都是由蛋白质构成的,并通过不断产生的蛋白质的相互作用而起作用。
第一步是转录,遗传信息由DNA经转录转移到mRNA中,第二步是翻译,根据遗传密码的中心法则,将成熟的mRNA分子中“碱基的排列顺序”(核苷酸序列)解码并生成对应的特定氨基酸序列。
翻译的具体过程为: mRNA被分成三个连续字母的单位,每个字母被称为密码子(codon),然后将密码子经由翻译表翻译成氨基酸,因此我们可以说蛋白质是氨基酸序列。
根据对应的遗传密码表,密码子翻译成氨基酸。例如,密码子TCA,对应编码S,即氨基酸丝氨酸。密码子有64种,但只有20个氨基酸。
因为一些密码子能翻译成相同的氨基酸,这被称为密码子简并性。例如: CGU、CGC、CGA、CGG、AGA、AGG --> Arg
蛋白编码基因的注释
如上图所示:蛋白质编码基因的功能注释可以分为个层次(结构、功能、生物学路径)。
第一层次蛋白编码基因结构分析(Structure):
直向同源物(使用Blast)例如: Blast可以用来发现特定于脑膜炎奈瑟氏球菌与其他密切相关的奈瑟氏球菌物具有高度的同源性。
调控蛋白(使用P2RP)例如: P2RP(预测的原核调节蛋白)可以用来确定蛋白质是一种调节蛋白。 P2RP是一种基于网络的框架,用于鉴定和分析原核生物基因组中的调节蛋白。
信号肽和跨膜蛋白(使用SignalP、Phobius、Philius)例如: Philius可以用来预测蛋白质是否是跨膜蛋白。我们还使用Phobius,它是一种组合的跨膜和信号肽预测因子。
结构域和基序(使用CD
Search、Interproscan):
Interproscan,它像Blast2Go一样,提供基于同源性和GO术语的注释,但是基因HMM的算法,并且依赖于更多来源的注释:Gene3D、Superfamily、PIRSF、TIGER、Panther、Pfam、SMART、PRINTS、HAMAP、ProSite、ProDom。Interproscan识别蛋白质家族结构域,基序和功能位点。
第二个层次蛋白编码基因功能分析(Function):
操纵子属于共调节蛋白家族。这些蛋白质组在进化选择期间是高度保守的,并且在相同方向上彼此相邻。它们不会被启动子或终止子分开,因为它们被表达为形成整体功能系统。
使用OperonDB,它主要计算每个保守的基因对估计基因,是否属于同一个操纵子的概率。该算法考虑到几个替代可能性,如在共同祖先相邻的无关功能,被隔离的可能性,或由于基因对的水平转移。
第三个层次蛋白编码基因途经分析(Pathway):
蛋白质相互作用和细胞中涉及的途径对于获得基因组的整体上的功能很重要。运用所得到信号和代谢途径,我们将可以可视化生物合成。通路将用于检查基因在特定生物系统中预测好坏的程度。路径分析中的主要工具如下: Blast2GO和KASS。
Blast2GO查找同源序列,映射以检索GOterm和注释,以选择相应可靠的功能。
KASS 通过与人工注释的KEGG GENES数据库相比对,该方法基于序列相似性,双向最佳比对结果,获得了高度的准确性。
蛋白质与NGS相结合和相关应用
NGS被应用于多组学研究的各个领域。在表观表观遗传学方面,有用来分析组蛋白修饰的染色质免疫沉淀测序(CHIP-Seq)。在蛋白质组学方面,有蛋白质间的相互作用的酵母双杂交测序(Y2H-seq)。
研究体内蛋白质与DNA的相互作用,也称结合位点分析法。即在生理状态下把细胞内的DNA与蛋白质交联在一起,通过超声处理将染色质切为小片段后,利用抗原抗体的特异性识别反应,将与目的蛋白相结合的DNA片段沉淀下来,以富集存在组蛋白修饰或者转录调控的DNA片段,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。
CHIP-Seq的原理
首先通过染色质免疫共沉淀技术(CHIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。
CHIP-Seq的流程
基本流程如下图:
把DNA和蛋白质交联在一起,超声处理为小片段,利用抗原抗体的特异性识别反应,将与目的蛋白相结合的DNA片段沉淀下来,富集和纯化DNA,构建文库,高通量测序,最后精确定位到基因组上。CHIP-Seq过程中,由于DNA富集过程受多种因素的影响。因此,在做CHIP-seq实验时,一定要做好实验对照。因为没有对照,很难对实验结果的可靠性进行评估。一般有三种实验对照:Input对照、阳性对照和阴性对照。常用Input对照。
CHIP-Seq的应用
1.判断 DNA 链的某一特定位置会出现何种组蛋白修饰
2.检测 RNA polymerase II 及其它反式因子在基因组上结合位点的精确定位
3.研究组蛋白共价修饰与基因表达的关系
4.CTCF 转录因子研究