GEO数据库挖掘—WGCNA鉴定骨肉瘤转移相关基因

骨肉瘤又称为成骨肉瘤,是一种恶性骨肿瘤,多出现早期转移和高死亡率。更好的研究和探索骨肉瘤早期转移的分子机制将有利于进行癌症的治疗,刚好这里就给大家介绍一篇利用公共数据分析的文献:基于共表达分析鉴定骨肉瘤转移相关基因。

数据来源

进行数据挖掘分析的所有数据都来自GEO数据库,数据下载基于两个原则:数据集属于骨肉瘤基因表达谱数据;数据集要求包含骨肉瘤转移和未转移这一分类信息。共获得四个数据集:GSE14359、GSE21257、 GSE32981、GSE14827。

数据分析

1.数据预处理

从GEO数据库下载四个数据集对应的芯片平台不同,将按照不同的方法进行处理。GSE14359和GSE14827对应的原始数据为CEL 文件格式,将基于Affy包进行背景校正和标准化。GSE21257、 GSE32981下载的原始数据为txt文件格式,基于limma包完成了校正工作。处理后的四个数据集数据将进行后续分析,其中GSE14359主要进行差异表达分析和WGCNA挖掘关键模块,剩下的三个数据集参与验证和分类分析。

2.差异表达分析

基于GSE14359表达谱数据进行差异分析,利用R语言limma包完成差异表达基因(DEG)的筛选,筛选标准为FDR<0.05 & |logFC|>1,最终获得了897 DEGs,并对筛选到的DEGs进行了双向层次聚类(见下图),在转移和未转移的样品中,基因表达差异趋势明显。

3.加权基因共表达网络分析

基于上一步分析筛选获取的差异基因进行WGCNA分析,power值选定12(R2>0.9,见下图A),模块最小基因数量设置大于30,并设定模块合并剪切高度0.95,共获得9个有效模块(含grey为10,见下图B),同时结合性状数据分析各模块基因与性状之间的GS(gene significance),并统计各模块内平均的GS作为MS(module significance)从而多方面衡量和选择重要模块进一步分析(见下图C)。

最终选定了模块基因数量最多(142),平均GS最高的Turquoise模块,构建共表达网络(见下图A),并进行GO、KEGG功能注释(见下图B)。该模块内上调基因83,下调基因59,进行功能注释的结果显示这些基因涉及的胰岛素样生长因子结合等功能可能和癌细胞转移进程有关。

4.SVM验证和评估

采用支持向量机(SVM)进行数据验证。基于GSE14359筛选分析获得142个基因,为进一步进行确认,选择该数据集作为训练数据,最终确定12个基因,对该17个样本可以进行准确的分类(accuracy rate of 94.4%,见下图),GSE21257、 GSE32981、GSE14827数据进行验证,GSE14827准确率96.3%,GSE32981准确率95.7%,GSE21257准确率92.3%。

结论

基于筛选分析以及对筛选基因的功能注释结果表明涉及胰岛素样生长因子结合蛋白IGFBPs可能和癌细胞的转移有关,同时SVM验证筛选的结果中MMP11基因等也可能和相关的癌细胞转移有关,也有实验表明口腔鳞状细胞癌细胞的转移过程中往往出现过表达等现象。

参考文献:

Tian H , Guan D , Li J . Identifying osteosarcoma metastasis associated genes by weighted gene co-expression network analysis (WGCNA)[J]. Medicine, 2018, 97(5):1966.

如果你对TCGA数据挖掘有兴趣的话,可以学习我们的TCGA相关课程。

《TCGA-生存分析》

https://study.163.com/course/introduction/1005645022.htm?share=1&shareId=1031484705

 《TCGA-ceRNA调控网络分析》

https://study.163.com/course/introduction/1006360042.htm?share=1&shareId=1031484705

《TCGA-转录因子调控》

https://study.163.com/course/introduction/1005807030.htm?share=1&shareId=1031484705

更多技能学习链接:

http://m.study.163.com/provider/400000000234009/index.htm?share=1&shareId=1031484705

更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5.微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接:linux系统使用perl入门到精通perl语言高级R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析GEO芯片数据挖掘GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他课程链接:二代测序转录组数据自主分析NCBI数据上传二代测序数据解读

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容