蛋白质组学实验设计、质控与分析

1. 实验设计与技术路线

(1) 常用流程

流程	说明
1.材料收集	细胞、细胞上清、组织、血浆、血清、脑脊液、外泌体、尿液......
2.定量技术	蛋白组：iTRAQ/TMT、LabelFree、SILAC、修饰；代谢组：靶向、非靶
3.数据验证	蛋白组：PRM、WB、ELISA；代谢组：MRM
4.深入研究	临床标志物、生理病理机制、药效机制、中医理论、药物靶点......

(2) 样品

样品类型	Pool（混样）	Individual（单样）
降低个体差异	不要求大样本	要求大样本
数据分析	低维，难以整合其他信息	多维多角度
可追溯性	不能重新定义组别	可根据所需重新定义组别
样本量	少	多
成本	低	高

(3) iTRAQ/TMT项目设计
体外等重同位素标记定量技术，可同时比较多个样本之间的蛋白表达量差异（通常10个样本以下）。
基本原则：

适用较广，但样本间需要较好的平行性，不适合进行不同物种样本间比较，如牛、羊、猪之间的比较；也不适合一些差异较大的IP样品的比较。
一般差异比较样本组用同一个试剂盒标记；
建议3个生物学重复；对于临床样本、小鼠等动物样本、植物样本等，每个生物学重复建议来自多个生物个体的重复；
多个试剂盒项目设计时，可加入内标（IS），内标通常是所有样本等量混合的样本。

(4) Labelfree项目设计
Labelfree是通过比较肽段母离子质谱峰强度，分析不同来源样品蛋白的表达量差异。该技术无需昂贵的同位素标记做内标。
基本原则：

适用于各类型生物样本；尤其是样本量较少或差异非常大的样品，如细胞上清、亚细胞成分、IP样品等的分析；
对于组间差异大的样品，可采用iBAQ算法（MaxQuant）来反映一个样品内不同蛋白间的相对丰度，可进行不同物种样品间的比较，如牛、羊、猪之间的比较；
适合多组分析、后期差异比较组可能会改变的实验设计；
建议3个生物学重复；对于临床样本、小鼠等动物样本、植物样本等，每个生物学重复建议来自多个生物个体的重复。

（5）DIA项目设计
DIA是数据非依赖性采集定量技术，它将质谱整个全扫描范围分为若干个窗口，高速循环地对每个窗口中的所有离子进行选择、碎裂及检测，从而无遗漏、无差异地获取样本中所有离子的全部碎片信息。DIA无需指定目标肽段，扫描点数均匀，利用谱图库即可实现定性确证和定量离子筛选，并可实现数据回溯。
基本原则：

适用于各类型生物样本；
需要先进行library构建；
适合多组分析、后期差异比较组可能会改变的实验设计；
建议独立的大样本分析。

（6）各定量技术比较
从数据采集模式来说，iTRAQ/TMT和Labelfree都是传统的DDA扫描，即在每个扫描周期内，只采集丰度最高的10-20个母离子信号的子离子碎片，其他信号的子离子信息丢失，因此覆盖率低、随机性高、重复性相对低；DIA扫描则在每个扫描周期内，将质量区间设置为多个区段window，每次采集window内所有母离子信息及其碎片（扫描速度足够快），因此具有高覆盖度、高重复性的特点。

定量技术	iTRAQ/TMT	Labelfree	Labelfree分级	DIA
样本数	少	少/多	少	多
样品	一般pool	pool/individual	一般pool	一般individual
样品平行性	平行	平行/不平行	平行/不平行	平行/不平行
数据量深度	高	低	高	高
PRM验证对接性	低	低	低	高
建库	否	否	否	是
成本	较高	低	较高	高
拓展性	否	否	否	是（可根据library重新分析）
采集模式	DDA	DDA	DDA	DIA

（7）搜库软件

流程回顾：
蛋白质酶切为肽段，经过色谱分离进入质谱仪，得到质谱实际谱图，利用搜库软件与理论谱图进行匹配打分，对肽段和蛋白进行鉴定、定量和下游数据分析。

Mascot
特点：收费；基于随机匹配打分算法；整合FDR阈值和Percolator算法；质谱数据检索的黄金标准。
MaxQuant
特点：免费不开源；优势在labelfree，RT校正，Match between runs提高鉴定数；配套的后处理工具Perseus。
Spectronaut
特点：收费；相对其他DIA软件，准确性高、灵敏度高、速度快；实现超过1000个DIA原始文件同时分析，极高谱图解析率，数据校正平均峰面积CV<10%；蛋白FDR、肽段FDR和CScore三重标准。

2. 质量控制

（1）色谱质控

色谱的峰形，决定定量准不准
对称？拖尾？
色谱的数据点，决定定量准不准
峰曲线上点多？少？
色谱的稳定性，决定定量准不准
RT是否偏移？使用iRT同位素内参校正色谱偏移
色谱的分离度，决定质谱的采集效率
（2）质量控制
基础状态考察
牛血清白蛋白（BSA）：考察质量偏移、洗脱时间、峰宽、信号响应等；
细胞样品：考察组学能力，如负责样品蛋白和肽段数目鉴定能力。
复杂样本鉴定重现性
三次重复鉴定的肽段DDA在60%以上，DIA在90%以上；
三次重复鉴定的蛋白DDA在70%以上，DIA在90%以上；
QC样本
一般是将所有样本等量混合成QC样本。前后QC，中间每10个样加一个QC。
统计分析QC样本的CV分布、聚类、相关性分析、PCA得分、质谱稳定性。
（3）质控目标
全
鉴定数目多，覆盖率高。
稳
鉴定重现性高，稳定性好，尤其是大样本的检测。
准
定量准确性高。

3. 下游分析

进行蛋白质组学的研究，可从以下角度来分析：

哪些蛋白质？
丰度如何？
有何功能？
在哪里作用？
是否或如何互作？
结构？
鉴定层面就不再赘述，只补充下搜库的数据库选择。一是综合性蛋白数据库，如NCBI、Uniprot、Ensembl等；二是特定物种的蛋白库，如拟南芥（TAIR）、水稻（RAPDB）、家蚕（silkdb）等；三是针对非模式生物，由已测序结果翻译而来的蛋白序列数据。
（1）定量层面
定量数据概括
a. 表达量层次聚类热图：
在相似性的基础上对数据分组、归类。一般组内的数据模式相似性较高，组间相似性较低。
b. 样品组间表达谱相关性分析：
样本相关性热图。
c. PCA 分析：
多个变量综合定量比较考察。
对高维数据降维，减少复杂性，对样本进行分类及预测，易于解释，分离信号和噪音，数据可视化。
趋势聚类分析
即将蛋白根据表达趋势进行归类。趋势聚类后，可以结合层次聚类、共表达网络分析、功能分类、信号通路分类或染色体分析等方法进行更深入的挖掘，适合最佳时间、最佳浓度、最佳温度等的选择。
统计学分析
差异蛋白筛选：

设计	实验设计	重复设计	统计学方法
两组间比较	实验 vs 对照	>=3	T-test
		<3	Significance A/B
多组比较	梯度1 vs 梯度2 vs 梯度3...	>=3	One-way Anova
	case2 vs control2	>=3	Two-way Anova

（2）功能层面

亚细胞定位预测
生物体内的蛋白质必须要运输到细胞的特定位置才能发挥生物学功能。研究未知蛋白生物学功能的第一步通常是获得蛋白亚细胞定位信息。
传统的电子显微法、荧光显微法等实验验证方法进行亚细胞定位，结果准确但费时费力，因此可通过机器学习算法实现大规模蛋白的亚细胞定位预测。
在线工具：
CELL：http://cello.life.nctu.edu.tw/
功能分析
根据相似性原理，具有相似序列的蛋白也可能具有相似的功能，因此将blast所得的相似蛋白的功能信息转嫁到目标蛋白上，可辅助对于目标蛋白尤其是研究程度不足的物种的目标蛋白的功能注释。
GO（Gene Ontology）基因功能标准化词汇术语，三大本体BP，CC，MF。
BlastGO大规模注释GO。
注释是一个评判打分的过程，这个打分系统会综合考量目标序列和比对序列的相似性、GO条目来源的可靠度以及GO有向无环图的结构，只有满足预设分数的GO term才会被注释给目标蛋白序列。
保守motif预测：通过InterProscan搜索EBI数据库中与目标蛋白匹配的保守基序（motif），并将motif相关的功能信息注释给目标蛋白序列。
在线工具：Motif-x：http://motif-x.med.harvard.edu/

通路分析
KEGG Pathway共7大类。介绍略
多通路整合——>发现分子调控机制。
蛋白互作网络
在生物体中，蛋白质并非孤立存在的，其功能的行使必须借助于其他蛋白质的调节和介导。这种调节或介导作用的实现首先要求蛋白质之间有结合作用或相互作用。
蛋白质互作网络对于揭示蛋白功能具有重要意义。例如，高度聚集的蛋白质可能具有相同或相似的功能；连接度高的蛋白质可能是影响整个系统代谢或信号转导途径的关键点。
分析工具：IntAct、MINT、String、Cytoscape......
术语：edge、node、cluster、degree、module.......