这次分享一下简单的生信数据挖掘发文思路,文章发表在Biomed Research International上,该期刊的影响因子:2.276,中科院分区:4区,参考范文出处:PMID: 33282948(DOI: 10.1155/2020/4625123)。
分析思路:
1、从GEO数据库中输入关键词,然后一共找到两套数据,分别使用GEO2R工具进行差异分析,将两套数据得到的差异基因取交集绘制韦恩图(区分上下调)
2、分别使用上下调差异基因进行GO富集分析(范文使用DAVID数据库,很多人嫌弃这个数据库更新慢都不使用了而是使用相关R包进行分析)
3、分别使用上下调差异基因进行KEGG富集分析(范文使用DAVID数据库,很多人嫌弃这个数据库更新慢都不使用了而是使用相关R包进行分析)
4、使用差异基因构建PPI网络并且筛选出重要的子网络,一共包含64个关键基因(String数据库构建网络,Cytoscape 进行可视化, MCODE插件筛选子网络)
5、使用UALCAN在线工具对64个关键基因进行生存分析,一共发现14个基因有统计学意义
6、使用GEPIA在线工具验证上述得到14个基因的表达情况
7、使用14个基因重新进行KEGG富集分析,发现有三个基因(TTK、CDC25、ESPL1)明显集中在细胞周期途径中,将这三个基因定为值得深入研究的基因
8、对这三个TTK、CDC25、ESPL1进行表达与临床因素的相关性分析(使用UCSC Xena网站的数据),并且重新进行生存分析(使用cBioPortal网站的数据)
这篇范文一共做了上面这些内容,其实还可以加入很多值得研究的内容,例如有科研经费的朋友可以对TTK、CDC25、ESPL1三个基因进行实验验证。如果没有科研经费,也没有关系,可以使用TCGA数据对TTK、CDC25、ESPL1三个基因构建Cox回归模型,计算Risk score、绘制列线图等,此外还可以结合研究热点免疫评分进行研究。