卡卡最近接触到了单细胞空间转录组的数据,需要对其进行标准分析得到统一的数据格式,接触到了spaceranger软件。
spaceranger软件[1]
spaceranger软件是10X Genomics开发的,适用其Visium Spatial platform产生的数据,可以将原始fastq数据经过质控,比对,定量等步骤后转为spot X gene的表达矩阵,供分析人员进行二级分析;当然,其功能不仅限于此,但是这个是其很重要的功能。
raw feature-barcode matrix转为filtered feature-barcode matrix
卡卡分析时发现,有的公共数据,只提供raw feature-barcode matrix,但是下游分析一般使用的是filtered feature-barcode matrix,该怎么办呢?是不是spaceranger软件可以帮忙呢?卡卡发现:
- 对于10X的6.5mm的Visium slides芯片,barcode白名单有4992个,即raw feature-barcode matrix的spot数目一般为4992个;而对于11mm的芯片,则有14336个spot barcode白名单;
- 只有被tissue覆盖的spot用于生成filtered feature-barcode matrix并进行下游分析[1];
- spcaeranger官网说明通过Imaging Algorithms确定真正被tissue组织覆盖的spot,并将其定义在tissue_positions.csv文件中;
- 因此卡卡觉得可以根据tissue_positions.csv文件第二列信息(是否被tissue组织覆盖),对raw feature-barcode matrix进行过滤得到filtered feature-barcode matrix;
- 于是卡卡找了一些公共及项目的数据,验证是否filtered feature-barcode matrix的barcode就是tissue_positions.csv文件中第二列为1的barcode;
- 构建验证函数为check_tissue,并进行测试,发现猜想是正确的;
check_tissue <- function(tissuefile,filtereddir){
if(! file.exists(tissuefile)){stop(paste0(tissuefile,' not exist!!'))}
dat <- read.table(tissuefile,header=F,sep=",")
dat <- dat[dat[,2]==1,]
intissue_cell <- dat[,1]
barcode_file = file.path(filtereddir,'barcodes.tsv.gz')
if(! file.exists(barcode_file)){stop(paste0(barcode_file,' not exist!!'))}
filtered_barcode <- read.table(barcode_file)
if(length(filtered_barcode$V1) == length(intissue_cell) && all(intissue_cell %in% filtered_barcode$V1)){
print('yes, filtered barcodes is the same with that in tissue_positions_list')
}else{
print('no, filtered barcodes is not the same with that in tissue_positions_list')
}
}
- 因此,卡卡构建了函数raw2filtered,可以将raw feature-barcode matrix转成filtered feature-barcode matrix;
raw2filtered <- function(datapath,tissuefile){
library(Seurat)
library(Matrix)
library(dplyr)
library(plyr)
library(data.table)
library(DropletUtils)
if(! file.exists(tissuefile)){stop(paste0(tissuefile,' not exist!!'))}
dat <- read.table(tissuefile,header=F,sep=",")
dat <- dat[dat[,2]==1,]
intissue_cell <- dat[,1]
rawdir <- file.path(datapath,'raw_feature_bc_matrix')
if(! dir.exists(rawdir)){stop(paste0(rawdir,' not exist!!'))}
raw_data <- Read10X(data.dir=file.path(datapath, "filtered_feature_bc_matrix"))
if(! all(intissue_cell %in% colnames(raw_data))){stop(paste0(tissuefile,' is error!!'))}
filtered_data <- raw_data[,intissue_cell]
filtereddir = file.path(datapath,'filtered_feature_bc_matrix')
write10xCounts(x = filtered_data, path = filtereddir, version='3', overwrite = TRUE)
}
- 其实有的分析步骤也可以直接用raw feature-barcode matrix进行分析,因为有的函数默认会根据tissue_positions.csv文件进行过滤,像BayesSpace的readVisium函数。
什么是单细胞空间转录组(Spatial Transcriptomics, ST)呢?
单细胞转录组(scRNA-seq) 技术能够检测组织内存在的不同亚群,但是在组织解离中会丢失细胞的空间信息,而空间信息对于了解细胞相互作用是很重要的,单细胞空间转录组就能够提供细胞的空间信息。
但是单细胞空间转录组的分辨率没有scRNA-seq那么么高,也就是说单个细胞(spot) 实际上含有数个细胞。
目前商用的空间转录组平台可以说是一家(10X genomics Visium platform) 独大[2],10X Visium是通过芯片来捕获基因表达的位置信息的,在芯片的的捕获区域内,进行HE染色和成像,对组织切片进行透化处理,释放细胞内的mRNA,mRNA被芯片上带有oligo-dT的探针捕获,在进行cDNA合成,构建文库进行测序,由于每个探针都带有特异的barcode来代表位置信息,从而能够获得基因表达的位置信息。
参考
[1] https://support.10xgenomics.com/spatial-gene-expression/software/pipelines/latest/algorithms/overview#10x-barcode.
[2] Multimodal Analysis of Composition and Spatial Architecture in Human Squamous Cell Carcinoma