【陪你学·生信】七、在数据库中检索相似的序列

一、相似度Similarity

序列的分析离不开相似度这个指标,相似度比较高的序列往往具有相似的结构、执行相似的功能。所以用未知序列blast得到的结果可以对未知序列进行推测。

当两个序列非常相似时,生物学家称之为同源。然而有一点不明确,就是什么程度的相似可以称之为“非常”相似呢?书上说一般长度为100以上核苷酸序列或者氨基酸序列,序列之间的一致度(identical)大于70%(nt)或25%(aa)可以推测同源。

不过有时,一致度或相似度很高的两个序列也有可能非同源,这种进化上的“趋同”现象可能是随机产生的,这样的一对序列可称为同功序列。或者序列相似度很低,但是蛋白质三维结构几乎一样的情况也有。分析的时候还要结合E-value,两序列中可对应的序列长度占两序列的比例,插入和删除的残基个数等一起判断是否是同源。推荐阅读往期推送【现学现卖】序列比对之identity VS similarity【现学现卖】序列比对之bit-score VS E-value

二、最棒的序列比对工具没有之一——BLAST

之前第六章主要介绍了分析一条氨基酸序列理化性质,结构域的方法。这章说说序列比对,比对就不得不用BLAST。NCBI中蛋白质相关的blast有:blastp(用氨基酸序列在氨基酸数据库中比对),tblastn(用氨基酸序列在核苷酸数据库中比对)。

1. NCBI-blastp

https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome

以序列号P09405的氨基酸序列为例进行blastp。

很快返回结果页面,点击按钮可以展开一些折叠的结果,还有filter工具筛选你感兴趣的东西。

上图标记黄色的都可以点开看看,比如Graphic Summary打开后如下图。彩色部分展示的是数据库中得到的序列与查询序列(query sequence)比对的位置,不同的颜色体现相似程度/得分。前面的几个序列与查询序列匹配程度很高,后面短的粉色部分的信息也并不是没有用处,比如可以帮助我们找到蛋白质结构域。

在Alignments里,上方是查询序列,下方是匹配序列,中间那栏,如果是字母则表示匹配,如果是➕表示是相似氨基酸残基,如果是空则表示未匹配上。

2. NCBI-blastn

BLASTing DNA序列和蛋白质序列很类似,而且如果你知道DNA序列的ORF,可以翻译成氨基酸序列使用blastp,获得更加准确的结果。

DNA序列比对可用blastn,还有tblastx和blastx,这里面的t表示translated,就是你输入DNA序列,在blast之前会有工具将其翻译,再进行blast比对。tblastx数据库是TDNA数据库(系统将nt翻译为aa的一个数据库),blastx数据库是氨基酸序列库。至于不同情况用什么工具,见下图。

3. 用BLAST方式思考问题(一些BLAST可以解决的问题)

(1)在基因组中寻找目标基因

可以将基因组分为多条两端互相重叠的序列(2-5kb),然后用blastx在NR库(the Non Redundant protein database)中检索。

(2)预测蛋白质功能

用blastp在Swiss-Prot数据库中检索,你输入的蛋白序列可能拥有和高分结果相似的功能。

(3)预测蛋白质三级结构

用blastp在PDB数据库中检索,道理同(2)

4. 使用BLAST前可以设定的参数

一般情况下进行BLAST,会对organism进行限定,其他参数维持默认。那么什么情况下需要修改默认参数呢?比如没有返回结果或者结果的E-value数值大,可以更改矩阵或空位罚分;或者返回太多结果,则可以限定所使用的数据库、关键词、E值等。

(1)blastp

一些蛋白质序列的某一部分复杂程度比较低(low-complexity/ low-entropy),一种或几种氨基酸残基在一段区域内富集。这样两个序列比对会产生高分结果,但是它们很可能毫不相干。为了避免这个问题,可以勾选Algorithm parameters——filters and mask高级选项——“low complexity regions”,过滤这样的比对结果。

(2)blastn

对于DNA序列,限定的参数页面如下,其中word size是指开始一段比对的序列长度,size越大,比对速度越快、精度越低。

三、PSI-BLAST简单介绍

在blastp下方算法选择里,还有PSI-BLAST。即Position-Specific Iterated BLAST,位点特异性迭代BLAST。

先BLAST 到一系列相似序列,并对其中每一个位置上的元素构建PSSM矩阵。继续进行第二轮blast,再加上新搜索出来的序列结果构建新的PSSM矩阵。这样迭代,直到无法搜索出新的结果为止或者直到获得了足够的序列为止。

BLAST的结果都是相近序列,使用PSI-BLAST可以帮助我们找到远缘序列。

其他操作和BLAST类似,点击BLAST返回结果页面如下。

然后可以点击Run PSI-Blast iteration 2开始迭代,直到没有新的序列产生或产生的序列数目满意为止。迭代产生的序列,系统会自动标黄。

这里需要解释一下,如果选择了这条序列构建PSSM矩阵,那么迭代之后,序列后面会有绿色圆形对勾,如果像我这次没有勾选(荧光黄色的4条序列),则这些序列不参与构建矩阵。实际操作时,如果第N次迭代新增加的序列结果明显不对,则不勾选它构建矩阵,剩下的序列构建的矩阵进行下一次分析。

当输入的查询蛋白质序列包含多个结构域时,输出结果可能不太可信。因为很多八竿子打不着的蛋白质也会有相似结构域。这时候可以根据第六章里面寻找结构域的方法,找到结构域的位置,将长蛋白质序列根据结构域分割为片段,进行blast。这种分割分析也适用于大于200aa的蛋白质序列。

往期相关内容:

【陪你学·生信】序

【陪你学·生信】一、生信能帮我们做什么

【陪你学·生信】二、一些你肯定会用到的生信工具和基本操作

【陪你学·生信】三、核苷酸序列数据库的使用

【陪你学·生信】四、蛋白质相关的数据库

【陪你学·生信】五、当你有一段待分析的DNA序列(基础操作介绍)

【陪你学·生信】六、当你有一段待分析的氨基酸序列(基础操作介绍)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350