比对及变异检测工具的选择,基因组变异

1.序列比对

2.DNA-seq&RNA-seq

3.几款比对工具的比较

4.基因组变异

5.变异检测工具的选择

6.参考


    序列比对

    目前的生物信息分析流程离不开序列比对,基于比对结果才能进行后续相关分析(组装、变异检测等)。可以说,序列比对已经成为生物信息分析的基石。根据不同应用,序列比对大致可以分为三类:

    1)全局比对,常用软件有 Clustal Omega、MUSCLE、HMMER 等,主要用于多序列比对、种系分析、保守区段分析等;

    2)局部比对,常用软件有 Blast+、Blat、Blastz、GeneWise 等,主要用于同源序列分析、数据库比对、基因功能注释等;

    3)短序列比对,常用软件有 BWA、Bowtie2、SOAP2、NovoAlign、TopHat、STAR、HISAT2 等,主要用于将高通量测序产出的短片段(Reads)快速且准确地比对到参考序列上。


    DNA-seq & RNA-seq

    大家在对比对工具进行比较时,喜欢将其分为DNA比对工具(DNA-seq)和RNA比对工具(RNA-seq)。它们的区别仅在于是否会考虑跨外显子的比对,即:是否会将没有比对上的reads劈开,对劈开后的两部分再次比对)。

    随着现在各种seq的出现,我们已经不能简单的根据是比对DNA还是RNA来判断工具的选择,而是要判断reads的比对是否需跨外显子。比如PRO-seq/GRO-seq,它们在建库时捕获的RNA,但是它们并不需要考虑跨外显子的比对。

    常用工具:

DNA-seq:bowtie;bowtie2;BWA

RNA-seq:STAR;HISAT2;Tophat

    HISAT2不仅支持RNA-seq的比对还支持DNA-seq比对,唯一需要做的就是加上一个参数--no-spliced-alignment。但是就目前来看,大部分人都是使用HISAT2做RNA-seq,没人使用它做DNA-seq

    STAR是ENCODE皇家御用的RNA-seq比对工具,ENCODE计划(ENCyclopedia Of DNA Elements)又称人类基因组DNA元件百科全书计划,是2003年在人类基因组计划完成之后紧接着的又一个大型国际科研项目。


    几款比对工具的比较

    可能是因为RNA-seq分析比较大众,因此大部分的比对工具都是利用RNA-seq的效率进行比较。对于 DNA-seq,最常用是 BWA;对于 RNA-seq,目前用的较多的是 HISAT2。

    无论是HISAT2还是STAR,对于Tophat来说都有很大的优势,Tophat已不再继续更新,所以我们不再使用它

    对 RNA-seq 产出的数据进行变异检测分析,与常规重测序的主要区别就在序列比对这一步,因为 RNA-seq 的数据来自转录本,比对到参考基因组需要跨越转录剪切位点,所以 RNA-seq 进行变异检测的重点就在于跨剪切位点的精确序列比对。GATK 发布的 RNA-seq 数据变异检测最佳实践流程用了 STAR 2-pass 这一方法进行序列比对,STAR 比对速度还算挺快。

    推荐文献:Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis                                                Systematic evaluation of spliced alignment programsfor RNA-seq data

    HISAT2,找到junction正确率最高,但是在总数上却比TopHat和STAR少,二类错误(纳伪)比较少,一类错误(弃真)有点高,灵敏度相对较低。STAR灵敏度更高,但是会有许多包含soft-clip的低质量比对,即对lower-quality(包括more soft-clipped和错配碱基)比对有较高的容忍度。

    ( junction:转录组reads比对不同于基因组reads比对(如ChIP-seq、WES等)的地方在于,比对的reads可能来源于2个被内含子隔开的外显子区域,导致reads一端比对在第一个外显子的后面部分,另一端比对在第二个外显子的前面部分,即跨剪切位点,从而形成exon-exon junction (剪接点)。这些reads又称为junction reads,对转录本的拼接、鉴定和差异分析具有重要的意义。)

    (soft-clip事件: 即reads末端存在低质量碱基或接头导致比对不上的, STAR会自动尝试截去未比对部分,只保留比对上的部分。)                       

    STAR的unique mapping比例最高,它对于双端测序的reads,要么全部比对上,要么全部抛弃,不会像TopHat和HISAT2一样只比对上某一个reads,即STAR相比较其他两款软件有较高的唯一比对率

    就唯一比对而言,STAR是三者最佳的,主要是因为它不会像TopHat和HISAT2一样在PE比对不上的情况还强行把SE也比对到基因组上。而且在处理较长的read和较短read的不同情况,STAR的稳定性也是最佳的。就速度而言,在比对速度方面,HISAT2比STAR快2.5倍,比TopHat快大约100倍。

    推荐一个网站,这里介绍了几种不同比对软件的使用方法(bowtie2, bwa, STAR, Tophat四种):homer

在HOMER网站上,对几种比对软件进行的说明,可以看到STAR的速度是最快的,当然得保证有这么多的内存来运行:

bowtie: fast, works well

bowtie2: fast, can perform local alignments too

BWA- Fast, allows indels, commonly used for genome/exome resequencing  快速,允许indels,通常用于 基因组/外显子组 重测序

Subread- Very fast, (also does splice alignment)

STAR- Extremely fast (also does splice alignment, requires at least 30 Gb memory)

    BWA mem算法产生的SNP 比bowtie2的高很多,大多数的variant calling的pipeline中都会推荐使用BWA比对工具。

    基因组变异

    https://www.jianshu.com/p/4453e58a9c96


    变异检测工具的选择

    GATK的HaplotypeCaller在精度和准确上都比FreeBayes, Platypus 和samtools 好。

    samtools 在找indels更加的粗犷,找到了更多本来不存在的indels,但是在SNP上的表现其实是一致的。Samtools+bcftools 能Call SNP,速度会比GATK快。

    GATK 能够利用机器学习的方法根据已有变异数据库进一步提高结果的准确度。但是对于植物而言,所能做的也就是硬指标过滤。因此,如果做人类,最推荐的工具是GATK,因为表现的确很好。而且人类还会不断增加样本,需要使用GVCFs文件解决N+1的问题。如果是植物,可以考虑freebayes,效率高,表现也不错。

    xuzhougeng 推荐阅读这篇文献 "Single Nucleotide Polymorphism Identification in Polyploids: A Review, Example, and Recommendations"。


声明:本篇多为资料整理总结,仅用于自学记录和交流,侵删,谢谢。参考:

参考

https://www.bioinfo-scrounger.com/archives/288/

https://www.jianshu.com/p/5b6dfc954315

https://mp.weixin.qq.com/s/Gp1EJunbhcZ1x1V2augpSA

https://mp.weixin.qq.com/s/QVvfD9dIphRdE1RVkRpjdg

https://shengxin.ren/article/428

https://www.jianshu.com/p/b4b43e467c33

https://www.jianshu.com/p/b400dc7c5eea

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容