- 序列模式
sequence pattern: 以特定的规则来描述碱基序列,
概率性的规则称为motifs,如:GC后的碱基80%为A,20%为T
Adapter是最简单的一种规则
K-mers:一段序列中所有字符串长度为k的组合,k小于等于序列长度
如一段序列: ATGCA
2-mers:AT, TG, GC, CA
3-mers:ATG, TGC, GCA
4-mers:ATGC, TGCA
5-mers:ATGCA
K-mers用处:
指出错误:k-mers通常在序列出错时出现
分类:特定的k-mers可以识别基因 - 序列对比
为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔(通常用短横线“-”表示)。对应的相同或相似的符号(在核酸中是A, T(或U), C, G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。
符号:
"-": gap
"|": match
".": dismatch
CIGAR string: 在SAM文件中的一种对比格式
比如:4M3D3M1X1M2D
M: Match
D: Deletion
X: Mismatch
如何选择最好的对比序列:没有最好的结果,分数越高越好
分数判定:
5分:match
-4分:mismatch
-10分:gap
-0.5分:extending an open gap
分数可以随着打分规则的改变而改变
Global alignment:总序列对比是两条序列的每一个碱基都互相配对,即使两个碱基不匹配或者一个碱基与一个gap配对
Local alignment: 局部对比
局部对比是指寻找分数最高的配对方式,为最后可能得到一条很短的配对序列但是是得分最高的