今天给大家介绍一款R包:TCGAExpression, 可以检索基因在33种肿瘤组织 vs 正常组织中表达。顾名思义,这个包功能实现是基于TCGA数据库。
包的安装与加载
通过devtools 安装该包
devtools::install_github("dming1024/TCGAExpression")
输入Token
这里给出一个免费Token,有效期一天
inputToken("eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJleHAiOjE2NTM5ODYxNjIuMTY2NjEzMywiaWF0IjoxNjUzODk5NzYyLjE2NjYxMzMsImlzcyI6Inl4dGp5IiwiZGF0YSI6eyJ1c2VybmFtZSI6Inl4dGp5MDEiLCJ0aW1lc3RhbXAiOjE2NTM4OTk3NjIuMTY2NjEzM319.AH7D61Ximf6P0FAx4dshWtrOg1USfcWldMMD4Svntrk")
没有正确的token,以下均不能使用
检索基因表达
输入基因名称和TCGA肿瘤项目名称,即可检索基因在该肿瘤组织 vs 正常组织中的表达数据。TCGA数据库目前涉及有33种肿瘤,这里以检索TCGA-LUAD项目中,TP53基因表达为例,进行讲解:
m1=getExpression("TP53","TCGA-LUAD")
结果可视化
基于以上结果,可视化该项目:肺腺癌中TP53基因表达。TCGA-LUAD项目一共有598个files,其中2个为Recurrent Tumor,537个为 Primary Tumor,59个为Solid Tissue Normal:
getBoxplot(m1)
差异比较分析
对各组数据采用非参数检验,比较 Tumor vs Normal 组织中,发现TP53表达在两组中是有显著性差异,tumor组织中的表达显著高于normal组(p<0.05)。
wilcox.test(as.numeric(gene)~Group,data=m1 %>% filter(Group!="Recurrent Tumor"))
TCGA Project 清单
如果不记得癌种属于TCGA哪个项目,怎么办呢?这个包依然可以解决!
getProjects()
以上就是该包的使用过程,非常简单实用,推荐有需要的小伙伴可以尝试。