Biostar第七课02 align到基因组

这个是重点中的重点,虽然是最基础的,但是这个的结果将直接影响下游的多种分析,可以说是核心文件。

怎样去选择参数,这个貌似要看自己的观点,其实就是告诉软件怎样打分,或者更确切的说,mismatch扣几分,deltion扣几分,开个gap扣几分

然后软件根据你制定的规则来找出得分最高的align的位置

几乎所有的alinger的默认选择都是EDNAFULL标准

这个标准可以这样下载

curl -O  ftp://ftp.ncbi.nlm.nih.gov/blast/matrices/NUC.4.4
#打分矩阵
    A   T   G   C  
A   5  -4  -4  -4  
T  -4   5  -4  -4  
G  -4  -4   5  -4  
C  -4  -4  -4   5  

关于怎样选择合适的矩阵,有这个WIlliam Pearson 牛逼哄哄的论文可以参考

这里还有各种矩阵可供选择

不过得小心一点,有一些标准化过了,有一些没有标准化,虽然名字可能看起来都差不多

Gap penalty

这个也是比较重要的参数,penalty的标准有很多,一般来说软件都用Affine的gap penalty,这个考虑两个参数。第一个就是gap的open,也就是发现一个gap。第二个是gap的extension,也就是这个gap的长度。如果你觉得,出现gap比较讨厌,就可以将open的罚分设的高一点。如果觉得出现比较长的gap很讨厌,就把extension的罚分搞高一点就好。但是一般来说,open的罚分会比较高,extension的罚分相对来说小很多。

全局对比

目的是看两条序列的相似程度
这里两条序列中每一个碱基都得对齐到另一条序列的相同碱基,或者是错配碱基上,或者是gap上。划重点,每一条每一个碱基

工具是EMboss套装,工具的开发者本意是帮助生信不熟的生物僧来使用,所以用起来会有很多的提示信息,可能会比较烦人,所以加个参数‘-filter’, 世界顿时就清净了许多。

里面的全局对比的命令使用gapopen罚分是10分一个,软件觉得开一个gap就丢很多分,所以就倾向于少开gap,宁可准确对齐的碱基少一点,也比开个gap罚分小
但是当我们用 -gapopen 7 将罚分降低一点,软件顿时就舒服了很多,开gap也不那么谨慎了,所以对齐的碱基可能更多一些,但是相应的gap也多了很多。

还可以用‘-data’ 指定打分的矩阵文件

一般来说软件可能会采用 free-end-gap,就是说最末尾有gap罚分不那么高,

局部对比

主要是用来寻找两条序列中相似度最大的小区域,划重点,其中的一小段区域
算法主要是寻找两条序列中各自的一小段序列,这两小段序列相似度特别高

打分矩阵不同,结果很不一样

# DNA矩阵
# This matrix is the "standard" EDNAFULL substitution matrix.
wget ftp://ftp.ncbi.nlm.nih.gov/blast/matrices/NUC.4.4

#蛋白矩阵
# Get the BLOSUM30, BLOSUM62, and BLOSUM90 matrices.
wget ftp://ftp.ncbi.nlm.nih.gov/blast/matrices/BLOSUM30
wget ftp://ftp.ncbi.nlm.nih.gov/blast/matrices/BLOSUM62
wget ftp://ftp.ncbi.nlm.nih.gov/blast/matrices/BLOSUM90

半全局对比

这个是我们测序分析的时候最常用的算法,主要用来将一小段短序列对比到很长的序列中,也就是将测序的reads对比到参考基因组中

准确配对,配对误差,软件的局限性

看了这么多,其实最关心的就是,到底准不准,到底结果能不能还原出真实的生物学事件。

作者做了个小实验,在原始序列里面的长串的C两边各插入一个C,结果全局对比到原始序列时,第一位置错误,第二将两个C的insertion报告为一个CT插入后紧跟一个T错配。

原因就是这一串串的C里面给出的信息太少,aligner从中获得不到任何的纠错区分能力,aligner只能寻求数学上的最优解,而不能找出更加符合生物学解释的方案。

这是不是说数学上的最优解不一定是生物学的最优解,所以生物僧做好实验还是意义重大的。

以上的问题可以用一个参数很轻易的解决,就是gapopen=9,也就是一个gap不要罚十分,罚九分就好。

但这个绝对不是说以后就要用gapopen=9 而不是10这个默认参数,调整参数的影响是很深远的,直接会影响到本来会正确的align的reads。使用9这个参数的结果就是,两个正确的碱基配对得分5+5=10分,而一个gap只罚分9分,小于10,所以align在遍历基因组的过程中,只要找到一个gap跟着两个碱基的match就会得分正值,判定为正确配对。在某些特定的情况下,可能挺好,但是绝大多数情况不太行。

以上的错误,并不是由于参数设置错误所导致的,问题的本质在于连续多个C导致的均聚区域给出配对信息太少,软件无法根据这么少的信息纠正错误。

配对可靠性取决于序列本身自己的复杂程度以及能够给出的信息量

复杂度比较低的区域通常给出的align的结果不是很可靠,需要额外的验证

多条序列align

mafft --clustalout small.fa > alignment.maf
KR105345.1      -------ataattttcctctcattgaaatttatatcggaatttaaattgaaattgttact
KR105328.1      --gattaataattttcctctcattgaaatttatatcggaatttaaattgaaattgttact
KR105323.1      --gattaataattttcctctcattgaaatttatatcggaatttaaattgaaattgttact
KR105302.1      --gattaataattttcctctcattgaaatttatatcggaatttaaattgaaattgttact
KR105295.1      ---attaataattttcctctcattgaaatttatatcggaatttaaattgaaattgttact
KR105294.1      --gattaataattttcctctcattgaaatttatatcggaatttaaattgaaattgttact
KR105282.1      --gattaataattttcctctcattgaaatttatatcggaatttaaattgaaattgttact
KR105266.1      ---attaataattttcctctcattgaaatttatatcggaatttaaattgaaattgttact
KR105263.1      aagattaataattttcctctcattgaaatttatatcggaatttaaattgaaattgttact
KR105253.1      ---attattaatyttcctctcattgaaatttatatcggaatttaaattgaaattgttact
                        **** ***********************************************

还可以用clustal-omega 来多序列对比

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容