2016年英国邓迪大学的Geoffrey J Barton教授在RNA发表一篇文章专门评估这一问题。作者对野生型和snf2
突变型酵母样品分别测序了48个生物学重复;质控后,野生型样品保留42
个生物学重复,突变型样品剩余44
个生物学重复。
在控制假阳性率为0.05
的标准下,用所有可用生物重复计算出的差异基因定义为该差异基因鉴定工具的金标准差异基因集。
作者评估了11
个常用的差异基因分析工具,性能最好的是edgeR
, DESeq2
和limma
。
下面以edgeR
为例展示了不同生物学重复数目对鉴定差异基因的影响。
图A
展示了,在控制相同的假阳性率水平下,不同的生物学重复鉴定出的差异基因数目 (nr: number of biological replicates)。作者从所有生物重复中随机抽取2组、3组、4组…生物学重复,分别计算差异基因,发现:
差异基因的数目整体与生物重复数量正相关。
-
差异基因数目的稳定性与生物重复数量负相关;
生物重复较少时,不同的抽样导致的差异基因数目波动较大;
生物重复较多时,检测出的差异基因数目受抽样影响较小,体现在柱状图数据分布更集中 (可视化之为什么要使用箱线图?)。
图B
展示了,不同生物学重复与鉴定的差异基因的真阳性率的关系。不同的实线代表不同的差异基因筛选倍数变化(T=|Log2(FC)|
)条件下的真阳性率。虚线代表假阳性率,近乎一条直线,说明edgeR
的假阳性率控制的还是比较好的,比较低,且不受生物重复数影响。如果筛选阈值比较高,比如4
倍差异(T=2)时,较低的重复数即可获得较高的真阳性率。而筛选阈值较低(T=0)时,真阳性率受生物学重复影响较大;生物学重复越少,真阳性率越低。常规筛选标准2
倍差异(T=1)时需要20
个生物重复才能达到与4
倍差异相同的真阳性率。
图C
则是图B
的另一种展现,横轴是筛选倍数阈值 (T=|Log2(FC)|
)。蓝色虚线代表3
个生物重复条件下的假阳性率,在常规筛选标准2
倍差异(T=1)时,假阳性率已趋近于0
。不同颜色的实现代表不同生物重复下的真阳性率随筛选阈值差异倍数的变化,整体呈现正相关;且生物重复越多,真阳性率越高,并受筛选阈值影响越少。
图D
展示了真阳性、真阴性 (非金标准差异基因定义为真阴性(无差异)基因)、假阳性、假阴性基因数目随生物重复数的变化。生物重复越多,漏掉的差异基因(假阴性基因)越少。