蛋白质组学数据的归一化/标准化处理

1.前言

  • 目的:
    调整由于技术,如处理、上样、预分、仪器等造成的样本间误差。这实际上是一种数据缩放的方法。一般在一个表达矩阵中,会涉及到多个样本,其表达量差异比较大,不能直接进行比较。比如某个样本表达量很大,在总体中就会占据绝对领导地位,这样就会掩盖掉表达量小的样本的作用,但并不代表它不重要,也有可能是这个样本含有较多的低表达基因,所以需要指定一个统一的标准,提前对样本原始表达量进行一定的处理。

  • 起源:
    处理方法借鉴基因表达数据,如RNAseq和芯片数据。在RNAseq数据中,通常需要消除基因长度、测序量等因素产生的误差。转录组和芯片数据处理相对比较成熟,有现成的方法和工具可用,如RPM/CPM、TPM、RPKM等等。当然蛋白质组数据的标准化也有其独特的地方,如它主要通过是峰面积来定量的,需要对不同run之间的峰面积进行标准化,这在大部分搜库软件中都有处理。

  • 归一化与标准化的区别:
    归一化是特殊的标准化,在生信领域不严格区分。归一化Normalization一般是把数据缩放到一定范围,如[0,1], 受离群点影响大;标准化Standardization一般把数据缩放成均值为0,方差为1的状态,即重新创建一个新的数据分布,受离群点影响小,但变换后的数据边界不确定。

  • 特点:
    消除了量纲(单位)的影响,真正突出数据的差别,有点绝对值变为相对值的感觉。
    对指标进行了统一,解决数据性质不同的问题。
    标准化后的数据收敛速度更快,计算时间会短很多。

数据缩放scaling(标准化、归一化)的那些事
表达矩阵的归一化和标准化,去除极端值,异常值
基因芯片数据分析(一)--芯片数据预处理

2.主要方法及代码实现

蛋白质组中标准化的工具较少,一般是自己编写代码。一般用apply结合sweep函数来实现。

一个表达矩阵,通常行为蛋白,列为不同样本,我们可以标准化行,也可标准化列,具体问题具体分析,关键在于要解释什么问题。比如我们要尽可能减弱系统偏差对样本蛋白定量值的影响,使各个样本和平行实验的数据处于相同的水平,让下游分析更为准确可靠,我们需要对列进行归一化。类似于我们做WB或QPCR实验时,会选择内参校正多个样本的定量值。添加内参或QC的方法在代谢组学的标准化中常用。


image.png

前四种方法通过将每个蛋白原始定量值除以对应样本的某指定值(如平均值、中位数、最大值和总和等)实现校正,每个样本的指定值在校正后变为1;后三种方法通过一定标准对原始数据进行缩放实现校正。

  • 中位数/均值/总和标准化
sweep(data,2,apply(data,2,median,na.rm=T),FUN="/") #中位数不受数列的极大值或极小值影响。
sweep(data,2,apply(data,2,mean,na.rm=T),FUN=“/”)
sweep(data,2,apply(data,2,sum,na.rm=T),FUN="/")
  • 中心化变换
    将每一个数据减去对应列的均值,数据变换后,均值为0,方差不变。中心化以后,由于数据的均值变成0,可以消除量纲、数据自身差异所带来的影响(此处是做减法而不是除法,所以变量的单位还是保留的),而且对线性回归以及模型预测方面也有好处。
sweep(data,2,apply(data,2,mean,na,rm=T),FUN="-")

或者直接用scale函数:

scale(data,center=T,scale=F) #center中心化,scale标准化
  • 极差标准化
    将每一个数据减去对应列的均值,然后除以对应列最大值与最小值之间的差值。
datacenter <- sweep(data_read,2,apply(data_read,2,mean,na.rm=T),FUN="-")
daraR <- apply(data_read,2,max,na.rm=T) - apply(data_read,2,min,na.rm=T)
sweep(datacenter,2,dataR,FUN="/")
  • 正态标准化
    将每一个数据减去对应列的均值,然后除以对应列的标准差,称之z-score(标准差标准化),其实就是scale函数中的scale参数。
scale(data,center=T,scale=T)

中位数、均值、中心化之类的标准化方法是将数据按照一定的比例进行缩小,但是缩小的范围是不确定的;而总和标准化、极差标准化、正态标准化之类的标准化方法可以将原始数据缩小到一个很有限的范围(比如缩小到[0,1]范围以内),比如有些机器学习方法,是要求对数据做正态标准化的,这种标准化的数据可以保证后续的运算速度更快。

如果要对行进行标准化,要求数据尽量在同一个尺度(scale)下进行比较,比如做层次聚类热图,建议将行的数据也进行标准化,这样每一行的数据就会控制在同一个尺度之下,颜色的深浅能更好地表现出数据的变化趋势。

http://www.360doc.com/content/19/0628/17/52645714_845432507.shtml

3.标准化方法评估

有一些类似的文章发表,简单看了下。
以下一篇是综述,描述了整个蛋白鉴定过程中(包括实验部分)有可能遇到的标准化处理的过程。
What is Normalization? The Strategies Employed inTop-Down and Bottom-Up Proteome Analysis Workflows

下面一篇文章综合比较了11种不同归一化的性能:

image.png

variance stabilization normalization(VSN)方法能降低的技术重复间差异最大。Linear regression normalization and local regression normalization的总体效果也不错。
A systematic evaluation of normalization methods in quantitative label-free proteomics

4.MaxQuant中的Intensity,LFQ和iBAQ

大佬的软件,三种定量算法都发了文章。

  • Intensity是将某Protein Groups里面的所有Unique和Razor peptides的信号强度加起来,作为一个原始强度值。用得很少。
  • iBAQ是在Intenstiy的基础上,将原始强度值除以本蛋白的理论肽段数目。一般用于样本内不同蛋白的比较,因为它表征的是蛋白的摩尔比值(copy number)。也可用于不同样本比较,即通过归一化手工校准样本间误差:蛋白IBAQ值除以此样品所有蛋白的强度的和,计算比例(这也是组学中“等质量上样”和“等体积上样”的核心区别,等质量上样来看的是比例,但是计算比例是有压缩效应的)。用得较少。
  • LFQ则是将原始强度值在样本之间进行校正,以消除处理、上样、预分、仪器等造成的样本间误差。一般用于同一蛋白不同样本间的比较。不过我们拿到数据后,我们还是会过滤、填充、转换、标准化一条龙走一遍。用得最多。

蛋白组学定量值的比较说明

5.资源列表

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350