【数据库>>CGGA】CGGA数据库

CGGA:Chinese Glioma Genome Atlas,中国脑胶质瘤基因组图谱计划,发布2000例中国脑胶质瘤样本的功能基因组学数据。包含详细数据信息:

  • 全外显子测序(286例)
  • mRNA芯片(301例)及其测序(1018例)
  • microRNA芯片(198例)
  • DNA甲基化芯片(159例)
  • 单细胞测序(来自13个病人,73个区域的6148个细胞)
  • 274个病人的MRI结果

    考虑到CGGA进行RNA测序时分为两批,因此需要去除批次效应:
rm(list = ls())
library(tidyverse)
library(limma)
library(sva)
library(preprocessCore)
setwd("E:/glioma")

# 整理693例病人测序结果
rt1 <- data.table::fread("CGGA.mRNAseq_693.RSEM-genes.20200506.txt",data.table = F) %>% 
  column_to_rownames("Gene_Name")
data1 <- log2(rt1+1)
data1a <- normalize.quantiles(as.matrix(data1))
rownames(data1a) <- rownames(data1)
colnames(data1a) <- colnames(data1a)

# 整理325例病人测序结果
rt2 <- data.table::fread("CGGA.mRNAseq_325.RSEM-genes.20200506.txt",data.table = F)%>% 
  column_to_rownames("Gene_Name")
data2 <- log2(rt2+1)
data2a <-  normalize.quantiles(as.matrix(data2))
rownames(data2a) <- rownames(data2)
colnames(data2a) <- colnames(data2)
#取交集
samegene <- intersect(row.names(data1),row.names(data2))
data <- cbind(data1a[samegene,],data2a[samegene,])

#去除批次
batchtype <- c(rep(1,ncol(data1a)),rep(2,ncol(data2a)))
outTab <- ComBat(data,batchtype,par.prior = T)
outTab1 <- outTab %>% 
  as.data.frame() %>% 
  rownames_to_column("id")
write.table(outTab,file = "CGGA-normalize.txt",sep="\t",quote = F,col.names = F)

参考链接:
Chinese Glioma Genome Atlas (CGGA): A Comprehensive Resource with Functional Genomic Data for Chinese Glioma Patients

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容