基础知识复习之比对

刘小泽写于18.11.30

一般我们得到原始数据、质控过滤后,要么进行比对,要么序列拼接。序列比对的话可以选择参考基因组、参考转录本,目的就是看看测序的reads分布在什么位置,然后根据这个去找变异或者看表达量多少;拼接的话可以拼接转录本或者构建基因组

序列比对

就是将测序reads重新定位到基因组/转录组上,又叫mapping

先说下特点

和平常我们常用的blast同源比对不同,这里的序列比对主要指高通量测序得到的短序列,这种序列主要有这几个特点:

  • 均匀 覆盖全基因组
  • 读长短:因此会出现一条reads比对到基因组许多位置,软件识别就会出现问题
  • 有一定的错误率:reads中的错误会带到比对结果,产生噪音干扰,尤其是变异检测时,SNP和测序错误这两者需要区分
  • 测序深度较高:目的就是解决上面读长短、测序错误率的问题,让一个位点多得到一些reads,帮助判断。一般测序量都是基因组的几十或者上百倍,目的就是一个:提高准确度!
  • 双端数据pair-end(PE):这是illumina的巧妙设计,不是测序读长短吗,那么它就一次测片段的两端(比如构建的500bp文库中有一个500bp的DNA片段,测序时两头各测100bp,中间空300)。这两条PE数据可是有相关关系的:它们是基因组同一区域片段上的两端,分别来自DNA的两条链,并且二者的物理距离(insert size)是500bp,且有方向性
  • 相比于blast同源比对,测序数据比对的容错性会更低,因此体现在计算亲缘关系上,对于亲缘关系相对较远的序列比对来讲,blast计算的同源性为80%,测序比对可能就只有50%

比对的结果

测序是个麻烦活,得到的结果又各自千差万别,因此比对的结果也有好多种情况,先简单就一对PE reads的比对情况来了解:

  • 最好的情况(Perfect match):两条PE reads都没有错配地比对到了基因组唯一位置【1 vs 1 无错配】

  • reads有错配地比对到了基因组唯一的位置,可能原因包括:测序错误;SNP和InDel 【1 vs 1 有错配】

  • reads无错配地比对到基因组多个位置,可能原因:reads来自基因组上重复区域,由于序列长度短,软件无法准确判断具体来源的位置,只能都显示出来【1 vs 多 无错配】

  • reads有错配比对到基因组多个位置,可能原因有很多:基因组重复区域的影响、测序错误或者突变

PE reads比对说明

上面说的Pair end比对就是:两条reads同时比对到同一序列,当然,除了PE reads比对外,还有single end(SE)比对,包括了:

  • 只有一条reads比对上
  • 两条reads都比对上,但比对的是不同的序列
  • 两条序列比对后的距离超过了insert size的长度

另外两条reads可能一条比对上的也没有,可能由于reads中错配太多或者两条reads同源性比较低

序列比对的应用

应用一:与自身拼接结果进行比对

比如自身的基因组、基因集

  • 计算位点覆盖深度
  • 计算参考序列覆盖比率
应用二:与参考进行比对

比如参考基因组、基因集、公共数据库等

  • 变异检测
  • 有参转录组

通过比对,我们可以得到一些具体的有用信息:

  • reads利用率:比对上的reads/总reads。例如:总reads数是100w,其中PE比对上的有90w,那么PE比对率为90%,另外single比对上的有5w,则SE比对率为5%,因此总reads利用率为95%
    在应用一中,可以利用数据利用率评价序列拼接的可靠性;在应用二中,可以衡量样本与目标参考序列的同源性

  • 覆盖深度(Coverage depth)/覆盖度/乘数:就是平常说的“测序测了10X或30X”,它表示每个碱基平均被测了多少次【测序量的首要衡量标准,如果公司测了100X基因组的数据,拿回来检测看到每个位点的覆盖度都在100左右,那么这个结果就是不错的;同时侧面反映了建库测序时随机打断的过程是不是均匀
    覆盖比率(Coverage ratio)/覆盖率:被测序的碱基占全基因组大小的比率,它随覆盖度的升高而升高,同时受到测序偏差(bias)的影响【最直观的理解就是illumina测序会受到GC bias的影响】【全基因组测序理论上要覆盖所有的区域,即测序要饱和

    它们虽然很像,但绝不一样!
    覆盖深度是可以想象是纵向的概念,而覆盖比率是横向的,例如:
    有一条1k长度的序列,通过序列比对,这1k个位点中有990个被测序到,那么覆盖率就是990/1000=99%;而覆盖深度则是将每个位点被覆盖的次数求和,然后除以基因组的长度

    覆盖深度、覆盖率

    有时分析比对结果发现,有的区域覆盖深度很高,是平均深度的几倍以上,称之为“高覆盖区”,这一般是基因组上的重复区域,因为来自不同区域的测序reads都可以mapping到这一块区域上;

    有高就有低,“低覆盖区” 可能属于GC存在偏差的区域,如高GC区域测序不均匀;或者基因组的复杂区域(杂合率较高或者简单重复区域)中拼接准确性比较低,导致mapping比率低

高、低覆盖区

比对软件

常用算法

  • 空位种子片段索引法,如Maq、ELAND,先将读段切分,并选其中一段或几段作为种子建立搜索索引,再查找索引并延展匹配来定位读段,通过轮换种子来定义允许的错配和各种可能的位置组合
  • Burrows Wheeler转换【最常用】,如BWA、SOAP、Bowtie,利用BW转换将基因组序列按一定的规则进行压缩,并构建索引,再回头查找定位读段,通过碱基查找与替换定义允许的错配
  • Smith-Waterman动态规划,如BFAST,利用迭代关系计算两个序列所有可能的比对分值,将结果存在一个矩阵中,再回头寻找最优比对结果

比对过程

  • 目标序列fasta构建索引
    因为比对数据量很大,通过索引可以很快查找到比对的参考序列对应位置
  • 短序列比对

最常用的BWA软件

顾名思义,就是采用bwt算法的aligner工具,输出sam/bam,目前比对最常用

  • bwa index构建索引,其中注意-a是选择建立索引的方法(包括bwtsw、is、div三种,默认是is)其中bwtsw适用于比较大的参考基因组,如人,不能用于小于10M的基因组,如细菌; is不能用于大于2G的基因组
  • bwa mem进行比对,如果下游需要用到gatk,就需要用-R指定类似这种"@RG\tID:$sample\tSM:$sample\tLB:WES\tPL:Illumina"的read group信息,用于区分不同的样本,其中ID每个group的唯一ID, SM表示样本名称, LB代表library,表示文库的名字,PL代表platform, 表示测序平台的名字,可选值有Illumina, Pacbio

再看看一些注意点

  • 比对前都要构建索引,我们可以对基因组、基因集、数据库等构建索引(fasta格式),目标序列不要太短,不要有回车符(也就是不要直接将NCBI的一些碱基直接粘贴到记事本,再上传到linux服务器处理,因为从windows=》linux会自动加上回车符,如果发现可以用dos2unix命令去除);另外选择正确的bwa构建方法,比如人要用bwtsw
  • 比对的过程是资源消耗比较大的计算过程,对硬盘要求比较高。因此尽量用bam存储,或者利用管道直接跳过sam进行下一步分析
  • 关于短序列与长序列比对:短序列一般考虑能不能比对上,而长序列考虑比对上多少;短序列一般设为5个gap,长序列相比能容许更多

欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,417评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,921评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,850评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,945评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,069评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,188评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,239评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,994评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,409评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,735评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,898评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,578评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,205评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,916评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,156评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,722评论 2 363
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,781评论 2 351

推荐阅读更多精彩内容