chapter65 序列比对算法alignment

1.序列比对的作用

大致分为两种:

  1. 比对两个序列的相似性,比如TA克隆序列和目标序列是否一致;
  2. 寻找与目标序列最接近的序列,比如生成进化树等

比对中最主要的因素:

  1. 比对算法,包括global, local, semi-local
  2. 打分体系
    这两者都对比对的结果会有关键影响

打分体系

1. 引入三个概念,gap 和 match,mismatch

gap:用"-"表示
match:用"|"表示匹配
mismatch:用"·"

13 match, 4 gap, 2 mismatch

2.哪个序列在上方是否影响比对结果?

不影响比对结果,即得分;但会影响结果的解释。
如下图,左右得分相同,但是左图解释为下链比上链有AAA的deletion和一个G的insertion;右图则为下链比上链有AAA的insertion和一个G的deletion。

比对示意

3.打分

含义:通过给不同状态赋予不同的分数,计算两条链比对最终得分,取得分最高为比对最优结果。
比如:

match=5 分
mismatch = -4 分
gap = -10 分
gap长度加1 = -0.5 分

如下比对结果中,第二种比对得分最高,因此是最优比对。


中间最优

但是大多数情况下,某一条链都比对完即比对结束,因此以上比对结果修改为:


左侧最优

但是实际打分矩阵更加复杂
以下是一个NCBI上的打分矩阵,字母含义见碱基单字母命名方法https://www.cnblogs.com/triple-y/p/10151803.html

打分矩阵

打分矩阵不包括gap的罚分

SAM文件中的CIGAR

CIGAR (Compact Idiosyncratic Gapped Alignment Report):表示序列和比对基因组的比对结果
比如以下序列:


意思是:4mismatch---3个deletion---3个match---1个mismatch---2个match...

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 生活中总有一些万能的句子,比如说,“多喝热水“,不论你是感冒发烧,胃疼肚子疼,还是眼睛疼,总之多喝热水。 再比如,...
    夏达人阅读 852评论 1 7
  • 猴子选大王 一群猴子要选新猴王。新猴王的选择方法是:让M只候选猴子围成一圈,从某位置起顺序编号为1~M号。从第1号...
    小牛_6666阅读 1,634评论 2 3
  • 听了刘老师的分享,我发觉曾经的我,是多么不爱自己,自己都觉得最对不起的是自己。一直都忽略自己的感受。想对自己...
    伟_e56f阅读 513评论 0 3
  • 1、今日营养分享 细胞:是人体功能和结构的基本单位,就是说人体有什么样的结构,就有什么样的相似的、相同结构的细胞。...
    芝华的幸福世界阅读 225评论 0 0
  • 人至不惑之年 逐渐明了世间琐事 洞悉诸多 想象与现实相差甚远 女儿身 冰清玉洁 为何送给她 永远淌不尽的泪泉 为人...
    韵芳阅读 317评论 0 1