文献复现01(GSE152048):01-数据下载

标题: Single-cell RNA landscape of intratumoral heterogeneity and immunosuppressive microenvironment in advanced osteosarcoma
DOI: https://doi.org/10.1038/s41467-020-20059-6
杂志: nature communications
发布年份:2020
数据集:GSE152048


打开数据集地址:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE152048
可以看到关于数据集的基本信息:


下载supplementary file

下载完成的文件:

解压后:

11个文件夹对应11个病人,每个文件夹都有barcodes,features,matrix三个gz压缩文件。

使用R读入数据,代码来自公众号【生信技能树】

rm(list = ls())
setwd('~/projects/GSE152048/')

library(Seurat)
#指定数据存放位置
samples=list.files("./GSE152048_RAW/outputs/")
samples
# [1] "BC10" "BC11" "BC16" "BC17" "BC2"  "BC20" "BC21" "BC22" "BC3"  "BC5"  "BC6" 
dir <- file.path('./GSE152048_RAW/outputs/',samples)
names(dir) <- samples
#读取数据创建Seurat对象
counts <- Read10X(data.dir = dir)
dim(counts)
[1]  32864 130761
sce.all = CreateSeuratObject(counts,
                             min.cells = 5,
                             min.features = 300 )

dim(sce.all)   #查看基因数和细胞总数
#[1]  25730 129755
# as.data.frame(sce.all@assays$RNA$counts[1:10, 1:2])
table(sce.all@meta.data$orig.ident)  #查看每个样本的细胞数
# BC10  BC11  BC16  BC17   BC2  BC20  BC21  BC22   BC3   BC5   BC6 
#17481 13444 10210  4032  5937 11063  6342  9104  8684 21824 21634 
head(sce.all@meta.data)
#                        orig.ident nCount_RNA nFeature_RNA
#BC10_AAACCTGAGACTCGGA-1       BC10      23075         3769
#BC10_AAACCTGAGACTTGAA-1       BC10       1177          678
#BC10_AAACCTGAGCTCCTTC-1       BC10       1011          561
#BC10_AAACCTGAGGAACTGC-1       BC10      10465         2542
#BC10_AAACCTGAGGAGTCTG-1       BC10       1359          605
#BC10_AAACCTGAGGATGGAA-1       BC10       9459         2339

从文献的补充表格可以了解到病人的相关信息,用于分组:

创建一个txt文件用于保存分组信息:


#读入分组信息
sample.info <- read.table("sample_info.txt",header=T)
#添加group和Pathological_type
for (i in c(2,3)) {
  tp <- sample.info[,i]
  names(tp) <- sample.info$sample
  samples <- sce.all$orig.ident
  add_ <- tp[as.character(samples)]
  names(add_) <- colnames(sce.all)
  sce.all <- AddMetaData(
    object = sce.all,
    metadata = add_,
    col.name = colnames(sample.info)[i]
)}
colnames(sce.all@meta.data)
# [1] "orig.ident"        "nCount_RNA"        "nFeature_RNA"      "group"             "Pathological_type"
head(sce.all@meta.data)
#                        orig.ident nCount_RNA nFeature_RNA      group Pathological_type
#BC10_AAACCTGAGACTCGGA-1       BC10      23075         3769 Metastasis      Conventional
#BC10_AAACCTGAGACTTGAA-1       BC10       1177          678 Metastasis      Conventional
#BC10_AAACCTGAGCTCCTTC-1       BC10       1011          561 Metastasis      Conventional
#BC10_AAACCTGAGGAACTGC-1       BC10      10465         2542 Metastasis      Conventional
#BC10_AAACCTGAGGAGTCTG-1       BC10       1359          605 Metastasis      Conventional
#BC10_AAACCTGAGGATGGAA-1       BC10       9459         2339 Metastasis      Conventional
table(sce.all@meta.data$group)
#Metastasis    Primary  Recurrent 
#    21513      83735      24507 
table(sce.all@meta.data$Pathological_type)
#Chondroblastic   Conventional   Intraosseous 
#         24199          99214           6342 
#保存sce.all
save(file="./GSE152048.rdata",sce.all)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容