每周文献-181214: lncRNA 差异分析评测

文献信息

标题:Differential gene expression analysis tools exhibit substandard performance for long non-coding RNA-sequencing data

DOI(url): https://doi.org/10.1186/s13059-018-1466-5

发表日期:24 July 2018

关键词: lncRNA, Differential gene expression, RNA-seq, differential expression

文献概述

首先需要说明一点,自己目前不怎么做 lncRNA 了,但是发现和它相关的内容还是忍不住多看一眼。

这篇文章详细的分析了不同标准化和差异分析方法在 lncRNA 分析中的差别。一共使用了25个分析流程,主要关注点是 lncRNA 和一些低表达 mRNA。使用15种指标来评估差异基因的分析方法和标准化方法,一共使用了 6 中不同 RNA-seq 数据集,同时还提供了一个 shiny 网页可视化工具用来展示这些分析结果。按道理类似类型的文章应该达不到这个水平的杂志,lncRNA 分析方法的测评能够发到 Genome Biology 上也是牛,想必定有过人之处。

简单说最后的结论是使用 limma 和 SAMSeq 分析lncRNA 或者表达量很低的mRNA 效果要稍微好些,值得注意的是,为了获得至少 50% 的 sensitivity,在实际环境(如临床癌症研究)中研究表达水平时需要超过80个样本(what ?)。测试使用的大约一半的方法显示出过多的假阳性,非常不可靠。

笔记

lncRNA 研究的主要问题就是表达量太低,在一些软件中往往是要求去除掉表达量很低的基因,这个时候就非常尴尬。

作者为此挑选了一些引用率较高的软件,这些软件的共同点是都有 R 包可以使用,而且都是用原始的 read counts 作为输出。在数据方面,作者使用了不同规模的 6 个数据,基本上可以概括进行差异分析的不同情况。用作者的话说:据我们所知,我们的研究是迄今为止所进行的最大的实例 评估,包括所使用的真实数据集的数量,评估的指标数量以及DE流程数量。

差异分析工具

使用的差异分析工具如下:

Tool (package version) Pipelines Citationsa
edgeR (3.14.0) (1) Exact test based on NB distribution, (2) GLM with NB family, (3) QL, (4–7) robust GLM with four different prior DF 5406
DESeq (1.24.0) (1) Default, exact test based on NB distribution 4655
DESeq2(1.12.4) Fits GLM with NB family. (1) Default, (2) independent filtering disabled (setting1), (3) independent filtering disabled and outlier-detection off (setting2) 1364
limma (3.25.21) Fits linear models on log-transformed counts. (1) Voom, (2) voom (robust), (3) trended, (4) trended (robust), (5) voom+QW, (6) limmaVST, (7) limmaQN 1828
NOISeq (2.12.1) (1) Default, data-adaptive and non-parametric method 524
baySeq (2.6.0) (1) Default, Bayesian methods with empirical prior distributions 315
SAMSeq (samr, 2.0) (1) Default, non-parametric method based on Wilcoxon rank sum statistic 140
PoissonSeq (1.1.2) (1) Default, uses poisson log-linear model 92
QuasiSeq (1.0.8) Fits GLM with NB family. (1) QL, (2) QLShrink, (3) QLSPline 57

分析过程

  1. first we evaluated various normalization procedures
  2. second we compared the level of agreement among DE pipelines using various publicly available RNA-seq datasets;
  3. third we explored the ability of the DE pipelines to recover known evidence of differential expression;
  4. fourth we used simulation procedures to evaluate and compare the performance of the tools under a variety of gene expression experiment scenarios, such as variability, sample size, and fraction of DE genes.

标准化方法比较

结论是除了 quantile normalization (QN),其它几种标准化的方法都差不多。 另外,终于在文献里看到了upsetR 画出来的图。

一致性分析

主要检查指标:

  1. number of genes identified as significantly differentially expressed (SDE);
  2. similarity in terms of the set of SDE genes;
  3. the degree of agreement on gene ranking;
  4. similarity of fold-change estimates;
  5. handling of genes with special characteristics (lncRNAs, genes with low counts, genes with outliers)
  6. computation time

这里的分析结果是使用聚类方法展示的,如果看懂了就很能说明问题。

下图中的abcd 分别代表: a fraction of significantly differentially expressed (SDE) genes detected at 5% FDR, b overlap among pipelines in detecting SDE genes at 5% FDR, c gene ranking agreement, and d similarity of log fold-change (LFC) estimates)

DESeq, baySeq, limmaQN,和 NOISeq 聚在一起,总之就是比较差。 QuasiSeq (both settings), edgeR robust (with both tested prior degrees of freedom), limmaVoom+QW, PoissonSeq 和 SAMSeq 相对而言就都比价不错。

文章后面有介绍了一些其它数据的比价结果就不一一详细罗列,最后的建议是:limma (with variance stabilizing transformation; voom with or without quality weighting; trend) and SAMSeq control the actual FDR reasonably well, while not sacrificing sensitivity。另外,就是如果做lncRNA,多送一些样本吧。

文章上传了分析代码,所有几个主要附件都是网页格式,展示所有评测结果还做了个网站

最后一点让我好奇的是,文章从投稿到接受一共花了8个月的时间,这期间都发生了什么,review 又给了哪些意见呢?


扫码即刻交流
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容