单细胞转录组标准化

一旦表达矩阵经过初步的质控、过滤,即判断低丰度表达基因、矫正批次效应、过滤低质量细胞等步骤后,接下来需要对表达矩阵进行标准化及归一化操作,继而进行下游分析。单细胞转录组的标准化主要针对由文库大小差异带来的样本表达矩阵差异,在此对常用的标准化方法计算原理及优缺点做个笔记,其中生信宝典文章中的各个标准化方法的标准化效果评估可以参考借鉴。

标准化及归一化都是针对表达矩阵完成的一些统计、数学转化,以消除异常值影响或富集表达量的离散等。

归一化
数学方法将表达量限定在一定区间内,及统一量纲,如log处理。归一化的目的在于让离散的表达量富集在更小区间内,但是不影响低表达的基因。
如果对表达量去一下log10,发现10000变成了4,10变成了1,这样之前离散程度很大的数据就被集中了。

标准化
经过统计变换使表达量分布更符合正态分布,目的是反映表达量的离散程度,如z-score处理。
转换后表达量符合正态分布分布,Z-score只是一个临界值,是标准化的结果,本身没有意义,有意义的在于在标准正态分布模型中它代表的概率值。
所以只要知道Z值, 查对应的正态分布表,就可以知道表达量偏离平均水平的程度。


单细胞转录组标准化

单细胞转录组测序数据来自于样本细胞的混样测序,从而导致各个细胞的文库大小差异较大,因而需要借助一些统计方法来消除因为文库大小导致的差异表达,这一过程就是标准化,用于标准化的因子包括:UQ, SF, CPM, RPKM, FPKM, TPM,最初用于bulk-seq。

CPM,counts per million
即原始reads除以样品总的可用reads数乘以1,000,000获得每百万reads的count数,排除spike-in的表达量。

这种计算方式的缺点是容易受到极高表达且在不同样品中存在差异表达的基因的影响;这些基因的打开或关闭会影响到细胞中总的分子数目,可能导致这些基因标准化之后就不存在表达差异了,而原本没有差异的基因标准化 之后却有差异了。
RPKM、FPKM和TPM是CPM按照基因或转录本长度归一化后的表达,也会受到这一影响。

RLE,Relative Log Expression
首先计算每个基因在所有样品中表达的几何平均值。每个细胞的量化因子(size factor)是所有基因与其在所有样品中的表达值的几何平均值的比值的中位数。其中量化因子 (size factor, SF)用来评估文库大小对表达矩阵的影响程度。

由于几何平均值的使用,只有在所有样品中表达都不为0的基因才能用来计算,所以不适合大批量低深度的scRNA-seq数据。

上四分位数,upperquartile, UQ
样品中所有基因的表达除以该样品处于上四分位数的基因的表达值,同时为了保证绝对表达水平的相对稳定,计算得到的上四分位数值要除以所有样品中上四分位数值的中位数。

对低深度scRNA-seq数据,这个方法的一个缺点是可能处于上四分位数的基因的表达值为0或接近0。这个限制可以通过采用更高的分位数如99%分位数 (scater的默认值)或排除表达值为0的基因后剩余基因的上四分位数。

TMM (M-值的加权截尾均值)
选定一个样品为参照,其它样品中基因的表达相对于参照样品中对应基因表达倍数的log2值定义为M-值。随后去除M-值中最高和最低的30%,剩下的M值计算加权平均值。每一个非参照样品的基 因表达值都乘以计算出的TMM。

这个方法的两个可能问题是,一是Trim后没有足够的非0基因,另外该方法假设大部分基因的表达是没有差异的。

scran
scran采用为scRNA-seq设计的CPM方法的变种. 该方法通过把多组细胞合并到一起来屏蔽较多的0值问题,然后采用类似_CPM的方式计算标准化因子。

因为一个细胞会出现在多个合并的集合里面 (pool),细胞特异的因子可以采用线性代数从非特异性因子中去卷积计算得来。

Downsampling
通过对表达矩阵进行向下抽样使得每个细胞检测到的总分子数相同。

这个方法的优势是计算过程中会引入0值进而消除不同细胞检测到的基因数不同引入的偏差。该方法最大的缺点是其非确定性,每次downsampling获得的表达矩阵都会有些细微不同。通常需要重复多次保证结果的稳定性。

总结
生信宝典对以上几种标准化方法的效果进行了评估,通过PCA方法并计算RLE(relative log expression)值图形化方式展示标准化前后变化趋势。
评估基础:含有更多reads的细胞,其大部分基因的表达比所有细胞的中值表达水平也更高,得到RLE值为正值;含有更少reads的细胞,其大部分基因的表达比所有细胞的中值表达水平更低,得到的RLE为负值。而标准化后的RLE值应该为0。即通过比较标准化后RLE值取值是否为0标准化方法评估脚本参考

对于以后的单细胞转录组分析,可以查看其采用的标准化方法是什么,作简要评估。

CPM标准化方法的RLE值

scran标准化方法的RLE值

参考1:生信技能树
参考2:生信星球细胞文库标准化
参考3:生信宝典标准化方法对比

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容