文献时间
2018
摘要
这篇文章的目的是鉴别潜在的与乳腺癌发病相关的基因。使用WGCNA来建立加权共表达网络来探索临床特征和基因集之间的关系,以及来鉴定候选的生物标记基因。使用GSE1561数据集来进行分析,TCGA的数据来进行验证。通过平均连接层次聚类的方法鉴定了18个模块。显著性模块()中共发现48个网络节点基因。基于TCGA数据,5个节点基因(CCNB2, FBXO5, KIF4A, MCM10,TPX2)显示出不良预后。ROC曲线证实了这5个节点基因的表达水平对癌症组织有良好的诊断效果,这5个基因对应蛋白的表达水平在癌症组织中也显著高于正常组织。其中CCNB2, KIF4A, TPX2在癌症发展后进一步被上调。总结,发现了5个生物标记基因用于后续的研究。
引言
癌症的数据统计(显示出多么需要被研究)。治疗手段进步。不同类型不同治疗策略。
乳腺癌正的遗传因素。BRCA1和BRCA2是目前临床上用来评估遗传性乳腺癌风险性的生物标记基因。BRCA相关的乳腺癌具有相对明显的病理特征。超过20%的乳腺癌患者的BRCA基因都发生了突变。超过30%的乳腺癌患者的HER2的表达都被上调。先前的数据表明HER2的表达水平不仅有诊断价值,而且还影响治疗策略。拉帕替尼和曲妥珠单抗对于HER2上调的患者有显著的治疗效应。激素受体(ER/PR)的表达水平预示内分泌疗法的有效性,它们的上调普遍与良好的预后相关。Ki-67被报道和无病生存相关。CXCR4的高表达普遍与淋巴结转移和距离转移相关。尽管如次,乳腺癌治疗有效的基因标记物仍然很匮乏。因此,就需要更多关于这个的研究。
共表达分析能够构建无尺度基因共表达网络。WGCNA被广泛的用于分析大数据集,从中发现高度相关的基因模块。同时可以探索基因模块和临床形状之间的联系,从而鉴定候选生物标记基因。
材料和方法
数据处理
图1展示了分析流程。GSE1561数据集的来源,提供者,测序平台,数据内容。大多数患者都做了2次肿瘤活检,并对2例肿瘤的两次活检进行分析,以检验该技术的重复性。重复实验证明数据集中的生物影响远大于技术影响。免疫组织化学同样验证了这个数据集的高质量。通过R中的一个Bioconductor包,使用RMA算法对基因表达文件进行预处理。背景矫正后,经过背景校正、分位数标准化和探针汇总,进一步处理了包含12413个基因的数据集,并通过方差分析选出了前50%变异基因(6206个基因)进行WGCNA分析。
共表达网络构建
使用R中的WGCNA包对6206的基因进行建网。
临床显著相关模块的鉴定
通过计算模块基因和临床特征之间的相关性来锁定模块。定义GS为单个基因和目标性状相关系数的矫正p值。MS为一个模块内的所有基因GS的平均值,通过MS来鉴定相关性最高的模块。
GO和KEGG富集分析
工具使用的DAVID,进行GO和KEGG富集分析。
核心基因的鉴定和验证
模块内基因间高相关性(阈值0.8)的基因视为模块的核心基因,其中与的基因与形状之间的相关系数高(0.2)的视为最终基因。通过TCGA中的数据来验证这些核心基因。
结果
共表达网络的构建和关键模块的鉴定
通过皮尔森相关性系数建网。软阈值选取9()。通过平均连锁分层聚类,共识别出18个模块。其中blue模块和形状grade相关性最强,进一步进行分析。
GO和KEGG分析结果
BP上的富集结果有细胞分裂、DNA复制、姐妹染色单体结合、有丝分裂和DNA复制启动。MF上的富集结果有蛋白质结合、聚(a)RNA结合、RNA结合和ATP结合。CC上的富集结果有核质、细胞核、核仁、细胞质和细胞质。
KEG分析表明这些模块主要富集到了,细胞周期、DNA复制、剪接体、真核生物核糖体生物合成和RNA转运。这些结果表明这个模块中的基因主要涉及到细胞有丝分裂循环过程。
鉴定和验证核心基因
根据(我觉的这里很有问题)阈值筛选规则,从模块中得到了42个候选核心基因。其中CCNB2,FBXO5,KIF4A,MCM10和TPX2折5个基因和生存分析曲线呈现负相关。而且,TCGA中的数据显示这5个基因在癌中的表达程度显著上升。其中CCNB2,KIF4A和TPX2在癌症晚期时被上调。ROC曲线显示CCNB2、FBXO5、KIF4A、MCM10和TPX2对正常组织和肿瘤组织显示出良好的诊断效率。而且,HPA数据库显示,这5个基因在肿瘤中的蛋白表达量也显著上升。既然这5个基因都是锁定模块中的核心基因,它们很可能有共表达的倾向。我们的共表达结果显示KIF4A和TPX2之间有很强的表达相关性。
讨论
乳腺癌对女性的威胁很大,而且治愈后复发的可能性极大。虽然治理手段不断的在进步,但是仍然很缺少精确的分子标靶。这项研究中我们使用了GEO中的表达数据来进行研究,使用TCGA中的测序数据和临床数据来进行验证。
筛选得到6306个差异性基因,进行WGCNA建网,得到18个基因模块。blue模块和性状grade显著相关,从中阈值筛选得到42个核心基因,生存曲线负相关的基因有5个分别是CCNB2,FBXO5,KIF4A,MCM10和TPX2。
5个基因的功能介绍,表达量描述(超长篇幅)!!!!!!!!!!!!
最后说一说WGCNA,之类的。。。。。