序列比对和序列特征分析总目录
序列比对的根本是发现潜在的同源序列,为所查询的序列进行功能预测及三维结构建模奠定基础。
序列比对sequence alignment
概念:运用某种特定的数学模型或算法,找出两个(双序列比对)或多个序列(多序列比对)之间的最大匹配碱基或残基数,比对的结果反应算法在多大程度上提供序列之间的相似性关系及生物学特性。
目的: 通过对比不同物种序列的相似性判断他们没之间是否具有同源性。通过比较两个序列之间的相似区域和保守型位点,可以寻找两者之间的分子进化关系。
进一步比对将多个蛋白质和核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域,位点和模式,从而探索导致它们产生共同功能的序列模式。
此外,蛋白质与具有三维结构的蛋白质比较可以获得蛋白质结构和折叠类型的信息。
相似性similarity和同源性homology是序列比较和分析的基础。
关于两者区别和联系请参照我之前的博文。
简单来说,
相似性指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序占的比例高低。
同源性是序列同源或不同源的一种论断,是个定性的概念,没有度的差异,而相似性是量化的。
也就是说两条序列要么同源要么不同源,不可能具有多或少的数量关系。
同源序列分为直系同源和旁系同源。直系同源体通常有相同或相似的功能,但旁系同源提不一定,进化上讲,由于缺乏原始的自然选择的力量,繁殖出的基因副本可以自由的变异并获得新的功能。
比对的序列数量可以分为双序列比对和多序列比对
比对范围来说可以分为全局比对(global alignment)和局部比对(local alignment)
全局比对考虑序列的全局相似性,局部比对考虑序列片段之间的相似性