三十六策 第 8 策 去芜取精
生物信息学分析
面对一份高通量筛选的数据, 一共有 2 个阶段的处理过程。
第一,从测序或芯片的原始数据转换为差异基因列表的过程,
第二步,整合分析,包括交互作用网络分析,功能聚类分析和相关通路分析,这些分析结果会提示这么一些线索,
1)这么多差异分子里,哪些比较重要,位于调控网络的节点;
2)这些变化的分子群已知跟哪些表型相关性最高;
3)跟哪些已知的通路调控关系比较密切,这是后面做机制时候的大致方向。
GEO 是一个存高通量数据的仓库。肿瘤最权威的是 TCGA,比较方便易用的是 Oncomine
一个数据库的索引网站,叫 omictools.com。
在有大数据可用的情况下,首先要做的工作是数据挖掘。
比较高的效率从众多的差异表达分子中快速地修枝剪叶,建立一个 10-20 个分子的精选列表,选出需要进行实验验证的分子。选出 10-20 个候选分子的过程,除了差异表达的倍数要显著以外,更多地需要考虑作为课题主变量的创新性问题。
选择标准:
- 新颖性
- 分子的特征: Genebank / Genecards了解分子大小、细胞定位、表达分布、分子已知的功能、相似的蛋白家族有什么功能,包括分子有没有不同转录本等一系列背景。
- 蛋白分子量:分子量很大的蛋白做起来实验来后面有很多难点
-
亚细胞定位:
- 分泌型蛋白一般是用来传递信号的
- 膜蛋白很多是接收信号的受体
- 胞浆蛋白中:比较重要的作用比如信号通路中的激酶或磷酸酶的功能,一部分合成出来后能够进入细胞核,这一类往往是具有转录调节功能的分子
- 利用数据库或者预实验做二次验证:eg.预后结局有差异。样本数据库分析、临床意义、文献报道的其他人的研究结果、检测细胞系里面的表达情况,选出多组线索间结果一致的,放弃那些结果矛盾的分子, 这样可以为后续研究降低风险。
最终选出那么 2-3 个靶标,按照分子、细胞、动物整套研究的套路设计来做实验验证。
分子表型验证完,分析那些差异分子列表里面的分子交互网络信息
需要知道哪些关键的通路受到了比较显著的调控,趋势跟你研究的靶分子是一致的,尤其是其中明星蛋白的表达变化情况要提炼出来,这种分子交互网络预测可以通过在线工具分析得到。
KEGG通路有多个 Biomarkers,趋势一致结果就比较可信。
qPCR 或者 WB 的实验方法验证这些明星分子的表达变化,进一步确认
“表型相关性”
让这些文献里面选到的分子跨越新表型上发挥新作用,机制方面就往表型间的共有通路上凑。
总结
围绕筛选拿到数据之后怎么进一步缩小候选分子范围的策略方法进行了介绍。数据挖掘在流程上跟自己筛选差不多,拿到差异分子列表都是分析的第一步。然后通过三个标准,1)分子新不新,2)分子的特征,3)数据库分析或者预实验验证下的表达情况,由此产生一个小范围的候选名单。下面再逐一读文献确认分子背景,最终选中三五个进行功能实验验证。