官方给出了三个例子[http://coxdocs.org/doku.php?id=perseus:user:use_cases:start]
分别是:
Label-free interaction data
Label-free phospho data
SILAC data
Label-free interaction data
1、数据准备与加载
使用数据是来自我之前用Maxquant跑的Label-free的数据,导出文件中combined/txt/proteinGroups.txt作为我们后续分析的数据,将数据加载到Perseus的窗口
Load → Generic matrix upload
select main columns :LFQ intensity
2、数据过滤
筛选反向蛋白质和仅仅由位点识别的蛋白质
Only identified by site:当标记为“+”时,该特定蛋白质组仅通过修饰位点识别
Reverse :当标记为“+”时,该特定蛋白质组不包含至少由先导蛋白质的50%的肽组成的的蛋白质,其中一个肽来自诱饵数据库的反向部分。应删除这些内容以进行进一步的数据分析。50%规则是为了防止错误的蛋白质点击错误地将蛋白质组标记为反向。
[Processing → Filter rows → Filter rows based on categorical column]
数据转换
由于表达值的范围可以变化超过10倍,因此可以对表达值进行Log转换,以便于计算蛋白质表达倍数的变化。
有利于检验统计和补充数据,有利于正态分布。
[Processing → Basic → Transform]
参看我们转换的数据是否符合正态分布
[Analysis → Visualization → Histogram]
未转换时
转换后
数据分组
在筛选数据的有效值之前,我们根据重复对样本进行分组
Processing → Annot. rows → Categorical annotation rows.
剔除不可信数据
对于进一步的分析,仅凭一个强度值进行鉴定通常不是很有用
Processing → Filter rows → Filter rows based on valid values
我们希望在至少一个Group中有“5”个有效值(这个要根据自己实验需要进行设置),实例数据是选择3个有效值,因为它的每个样本有三个重复。而我选择了5,因为我的实验有5个重复。
插补
当蛋白质没有被质谱仪检测到时,表达值的对数变换生成一个“NaN”(非分配数)值池,对应的表达值最初为零的表达值。
插补函数根据正太分布,计算出我们的缺失值。
[Processing → Imputation → Replace missing values from normal distribution]
插补函数将查看值的分布情况,假设它们是正态分布,并计算分布的宽度和中心。
然后Perseus将分布缩小到“0.3”(宽度)的因子,移动它下降到“1.8”(向下移动)标准偏差,并模拟一些随机值,弥补了价值观的缺失。我们也采取了整个矩阵(模式)。
插补后的分布情况