前面给大家介绍了新版的TCGA数据库,通过文字和视频给大家讲解了如何从TCGA数据库下载RNAseq数据,miRNAseq数据以及体细胞突变数据
以及如何合并成矩阵
☞ 【视频讲解】R代码合并新版TCGA中RNAseq表达谱矩阵
☞ 【视频讲解】R代码合并新版TCGA中miRNA表达谱矩阵
☞ 【R实战】使用maftools复现SCI文章中的体细胞突变瀑布图
今天小编就来跟大家聊聊,如何从TCGA数据库中下载DNA甲基化数据。我们还是以TCGA-CHOL(胆管癌)这套数据给大家举例。
1. 打开TCGA数据库官网,https://portal.gdc.cancer.gov/。在对话框中输入想要查找的肿瘤的名称。这里以TCGA-CHOL这套数据为例。点击PR, TCGA-CHOL。
2. 点击Methylation Array后面的36(Cases数)。TCGA里面的DNA甲基化数据大多数是采用illumina的450K甲基化芯片检测得到的。
3. 在跳转的页面中,点击左上角的Files,然后勾选Methylation Beta Value。这个时候,文件数就从原来的145个变成了45个。最后点击Add All Files to Cart。
4.点击右上角的Cart,然后点击Sample Sheet,下载样本信息表,得到gdc_sample_sheet.2022-08-06.tsv文件。
5. 点击download,选择Cart,进行下载。会得到一个.tar.gz的压缩文件gdc_download_20220806_013206.570127.tar.gz。这个里面就是45个样本的甲基化数据了。
6. 创建一个TCGA_CHOL文件夹,然后在TCGA_CHOL下创建一个methylation文件夹,将gdc_download_20220806_013206.570127.tar.gz拷贝到methylation里解压。前面下载的gdc_sample_sheet.2022-08-06.tsv拷贝到TCGA_CHOL,更名为methylation_sample_sheet.tsv。最终得到的文件夹结构如下
methylation文件夹的结果如下,包含45个单独的文件夹
每个文件夹下面是一个样本的DNA甲基化数据
打开这个betas.txt文件,内容如下。第一列为450K芯片的探针ID,每一个对应一个CpG位点,后面是代表甲基化水平的beta值,从0-1,0表示完全非甲基化,1表示完全甲基化。
今天的分享就先到这里,后面我们会给大家讲解如何使用R代码将这45个样本的甲基化值合并成一个矩阵。