好久没有学习RNAseq的东西了,今天随意翻到一篇很不错的总结,这里了只是我的学习笔记,原文会更好一些:https://mp.weixin.qq.com/s/u_ZC7wsClEIa43as_klLpg
1. 基因共表达网络分析
(Weighted Gene Co-Expression Network Analysis, WGCNA)
基因共表达网络是基于基因间表达数据的相似性而构建的网络图,图中的节点代表基因,具有相似表达谱的基因被连接起来形成网络。通过构建基因共表达网络,可以深入探讨基因间的相互作用关系并挖掘核心基因(hub gene)。
案例
神经干细胞具有自我更新能力,能够分化产生神经组织中不同细胞类型的细胞。但成体神经干细胞数量稀少,所处环境复杂,使得在体识别、解析成体神经干细胞的分子特征及示踪成体干细胞的分化谱系面临巨大的挑战。Luo et al (2015)通过对小鼠CD133+ /CD133- 室管膜神经干细胞进行单细胞转录组测序,然后通过构建基因共表达网络(WGCNA)(图1),发现了激活神经干细胞的信号通路,并运用相关实验手段验证了这些信号通路的存在。
2.基因集富集分析(Gene Set Enrichment Analysis, GSEA)
根据基因功能注释或预实验结果构建目标基因集,将其按照在两类样本中的差异表达程度进行排序,然后检验该基因集是否在排序表的顶端或者底端富集。
该项分析通过检测整个基因集的表达变化,可以在整体水平上全面检测到表达差异不显著但却有重要生物学意义的基因,而无需指定一个差异程度的阈值。
案例
当前对非小细胞肺癌(NSCLC)的预测标记很不理想,迫切需要找到新的诊断和预测标记。Zhao et al. (2016)基于RNA-Seq的GSEA分析揭示了STK39基因的表达与非小细胞肺癌相关的过程和通路显著相关,表明STK39基因参与了非小细胞肺癌的发生和发展,其可作为潜在的生物标记(图2)。
3. 时序分析
是指对相同样本在一个时间段的不同时间点的基因表达水平进行测量,以观测该样本在各个时间点的基因表达变化情况,并藉此开展相关分析。
通过时序分析,可以探讨该样品在这个时间段内的多个时间点的基因表达模式,继而对某个表达模式的基因进行GO和KEGG的功能类富集,从而挖掘其生物学功能;同时可以预测基因间调控网络在时序上的变化趋势,挖掘不同时间基因调控网络中与时间或其他特定因素相关的模块。
案例
David et al. (2013) 通过对水稻根和芽在磷元素缺乏早期和晚期以及磷含量恢复后的时空转录组进行综合研究,揭示了为维持植物磷元素的体内平衡所需的大量潜在重要调控因子(图3)。4. 基因融合分析
基因融合(Gene fusion)是指将两个或多个基因的编码区首尾相连,置于同一套调控序列(包括启动子、增强子和终止子等)的控制之下,构成嵌合基因。基因融合通常是由于染色体重排所造成的。
因为异常基因融合事件可以引起恶性血液疾病以及肿瘤的发生,所以通过分析基因融合现象将有助于探讨发病机制、biomaker的筛选等,临床意义重大。
案例
基因重排及其所导致的致癌融合蛋白的研究成为了相关靶标癌症治疗的基础。Bao et al.(2014)基于272例神经胶质瘤患者的RNA-Seq数据,分析了其中发生融合的转录本,并鉴定一个与恶性胶质瘤相关的新融合转录本(PTPRZ1-MET, ZM)(图4)。
5. RNA编辑分析
RNA编辑(RNA editing)是指由于编码区RNA 发生核苷酸改变(包括缺失、插入和置换)而引起密码子发生变化的现象,此时mRNA序列不与模板 DNA 忠实互补。
通过分析RNA编辑现象将有助于探讨其在临床上的应用以及一些癌症的发病机制。
案例
由A碱基替换为I碱基的RNA编辑事件常发现于一些癌症中,但在人类结肠癌中很少有过研究报道。Lee et al. (2017)基于转录组数据在人类结肠癌中检测到多种RNA编辑事件,结果表明非同义RNA编辑模式可以做为结肠癌的新的生物标记来使用,用来鉴别结肠癌病人(图5)。
6. 蛋白互作网络分析(Protein interaction network analysis, PINA)
蛋白质互作分析是理解细胞组织和分子功能的基础。为了更好理解蛋白质的功能及其对基因的调控作用,有必要开展蛋白质相互作用(Protein-protein interaction , PPI)的研究。比如在医学上,这将有助于深入探讨人类疾病的致病机理和寻找基因治疗的药物靶点。
案例
白血病是发展中国家癌症死亡的主要原因,很多研究都致力于寻找它的临床诊断标记。但因为它的病因高度复杂和异质性,涉及到许多分子组分间的相互作用 ,Yuan et al.(2017)基于蛋白质互作数据和白血病相关基因的芯片表达谱数据来构建蛋白质互作网络,从网络角度出发来寻找它的临床诊断标记,结果鉴定得到一个可用于白血病临床精准诊断的蛋白质互作网络,该网络包括97个基因和400个相互作用关系(图6)。
7.代谢途径可视化分析
iPath分析是利用基因组信息来对压力状态下的新陈代谢通路进行可视化分析的有效方法。进行对代谢途径进行可视化分析,可以查看整个生物系统的代谢通路信息,从而可以探讨目标基因参与的生物代谢途径并开展相关后续分析。
案例
牡蛎具有调整自身渗透平衡的特殊机制来适应海岸带的盐分波动。Meng et al. (2013)采用代谢途径可视化的分析方法基于转录组数据对其在不同盐压力下的新陈代谢通路进行研究,结果揭示了“Intracellular free amino acids (FAAs)”这个氨基酸在牡蛎对广盐性环境的适应中起到重要作用,而FAAs代谢通路是最重要的盐压力效应器(图7)。
参考文献
【1】Bao Z, Chen H, Yang M et al. RNA-seq of 272 gliomas revealed a novel, recurrent PTPRZ1-MET fusion transcript in secondary glioblastomas. Genome Research, 2014, 24: 1765-1773
【2】David Secco, Jabnoune M, Walker H et al. Spatio-temporal transcript profiling of rice roots and shoots in response to phosphate starvation and recovery. The Plant Cell, 2013, 25: 4285-4304.
【3】Lee S, Kim H, Kang J et al. Identification of diverse adenosine-to-inosine RNA editing subtypes in colorectal cancer. Cancer Research and Treatment, 2017.
【4】Luo Y, Coskun V, Liang A et al. Single-cell transcriptome analyses reveal signals to activate dormant neural stem cells. Cell, 2015, 161: 1175–1186.
【5】Meng J, Zhu Q, Zhang L et al. Genome and transcriptome analyses provide insight into the euryhaline adaptation mechanism of Crassostrea gigas. PLoS One, 2013, 8:e58563.
【6】Yuan X, Chen J, Lin Y et al. Network biomarkers constructed from gene expression and protein-protein interaction data for accurate prediction of leukemia. Journal of Cancer, 2017,8: 278-286.
【7】Zhao L, Zhu W, Xiong L et al. Role of high expression levels of STK39 in the growth, migration and invasion of non-small cell type lung cancer cells. Oncotarget, 2016,7: 61366-61377.
转载自美吉生物。