1.Empirical assessment of analysis workflows for differential expression analysis of human sample...

RNA-seq分析流程分析:RNA-seq数据分析流程主要由序列对比,表达矩阵构建,差异基因鉴定等三大步骤构成【1-8】。目前,已有大量的软件被开发用于分析流程。而上游分析可能对下游分析或/与结果有实质上的影响。

文章主要探讨三种大步骤中各软件相互组合使用对结果所带来的差异【21】。文章选用的数据集为典型和非典型人类单核细胞数据集,且该数据集已被多个独立实验室进行了分析,以此数据集作为参考理论上具有高度的可信度。另,文章使用的测试数据集为真实数据,测试数据与参考数据集具有高度相关性。

研究显示不同的工作流的效果具有显著差异,只要体现在召回值和精确度两点,大体上呈现反义线性关系。提示我们在选取相应工作流时可首先考虑自己实验对这两项参数的需求。

代码:https://github.com/cckim47/kimlab/tree/master/rnaseq.

1、构建参考数据集

比对典型与非典型样本的测序数据参数,如测序质量、总读段数量、序列比对后读段数量,结果显示无显著差异。下载相关表达矩阵后,作者使用log2处理需要标准化的数据,并且使用了Significance Analysis of Microarrays (SAM)及limma进行差异基因分析并且进行比对后发现结果具有高度相关性,最终选取数据的交叉结果作为参考数据集

2、工作流组合


软件及简称

3、不同步骤对结果的影响

首先比对三大步骤内部差异基因数量,结果提示差异基因分析工具对显著基因数量产生的影响最大;另,各差异分析软件的结果稳定性也具有差异;

其次,作者比对了个工作流结果的召回值( recall ,intersecting significant genes divided by total number of significant reference genes)和精确度( precision ,intersecting significant genes divided by total number of significant genes identified by RNA-Seq),结果提示差异基因分析软件对结果影响最大。

4、工作流异质性

无论是转录本还是基因表达层面,召回值与差异基因数量呈线性关系,而精确度则呈反义线性关系。

基因表达水平的召回值,使用 SAMseq软件的工作流最高;转录水平的则以使用 baySeq及 NBPSeq软件的工作流最高;

基因表达水平的精确度,使用NOISeqBIO软件的工作流最高;转录水平中则具有多项,其中最常用的是Ballgown及NOISeqBIO。

值得注意的是,我们常用的TopHat2+cufflinks+cuffdiff工作流显示最高的精确度及第二低的差异基因数量。

5、工作流性能权衡

由于计算内部的关系,我们需要在召回值及精确度之间权衡,方能找到适合自己的工作流。研究中大部分工作流的召回值及精确度之间存在着反义线性关系。这一点在转录本及基因表达层面都是成立的。

Ballgown、DESeq2、 limma + voom、limma + vs及 and SAMseq最为接近该趋势,而baySeq和EBseq最为偏离。

SAM-seq(一种非参数方法)是一种高性能的软件【3,16】,尤其是在有大量重复数据可用时可使结果较为接近潜在的分布规律,但它趋向于牺牲精确度从而提高召回率;NOISeqBIO则倾向于在大规模的样本中鉴定更少的差异基因【3】并具有低召回值;baySeq和EBseq统计学方法最为接近,它们都以负二项模型(underlying negative binomial model)去估算每个基因差异表达的后验概率【46,48】,EBseq处理后的数据由于降低精确度而召回值未回升而偏离反义线性模型(EBseq在大样本中容易产生假阳性数据【16】)baySeq在处理基因层面数据时表现出与EBseq相似的倾向,可能是由于它们的计算模式相同;Ballgown是在limma的基础上发展的,它们三种软件性能良好并且趋向于反义线性模型。区别在于Ballgown倾向于更高的精确度,而limma+voom/vst更倾向于召回值。

序列对比和表达矩阵构建软件的选用通常对结果没有特殊影响,且差异基因分析所造成的影响远大于它们。除了以下两点:其一,BitSeq(表达矩阵构建软件)在与基于负二项模型的差异基因分析软件(BaySeq,DESeq2, edgeR, and NBPSeq)连用时会鉴定出大量的差异表达基因;其二,使用STAR进行读段对比会使一些高性能工作流的精确度和召回值达到平衡状态??,尤其是与Ballgown连用时。

工作流的权衡选择依据数据的下游分析和应用中对第一类错误和第二类错误的容忍度。( 当假设检验拒绝了实际上成立的零假设时,所犯的错误称为第一类错误,其概率用α表示;当假设检验接受实际上不成立的零假设时,所犯的错误称为第二类错误,其概率用β表示。),也即考虑召回值和精确度

附:其他研究者使用STAR+TPMCalculator+ DGA software进行测试分析,结果提示可能是TPMCalculator造成精确度的提高

https://ftp.ncbi.nlm.nih.gov/pub/RNASeqWF/notebooks/00%20-%20Project%20Notes.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容