卡卡最近接触到了cite-seq数据,需要对cite-seq的数据分析流程进行搭建,因此调研了相关知识。
cite-seq
CITE-seq技术是2017年发表的一种技术[1],能够同时测定数千个细胞的RNA转录本及蛋白标记物。此技术出现时间较久,但是却似乎没有统一的标准分析流程:
- 不同的文章对于cite-seq产生的数据的分析都没有统一标准
- 查阅了大量的相关资料,最后选取muon (https://github.com/scverse/muon)软件来进行分析
为何选取muon流程分析cite-seq
- 此软件由python撰写,python是生信工作中使用广泛的语言,且能够直接对接卡卡公司的数据库
- cite-seq技术的原始文章[1]使用了clr(centered log ratio)矫正方法对蛋白数据进行normalize, muon也采用了此方法
- weighted Nearest Neighbor Analysis[2]用于多组学数据分析的认可度较高,muon采用了此方法
- 多篇cite-seq文章分析流程不统一[3-5],但是统一的观点是:组学分开分析,不如多组学联合分析[2];而muon正是两种组学联合分析
- scanpy开发团队开发的muon[6],且推荐使用此软件[7-8],并不再维护之前的scanpy分析cite-seq的流程[9]
- 此软件能够与scanpy兼容,且其mudata数据结构与anndata类似,能够同时存储多维数据,明显优于使用单独anndata数据结构来存储多维信息
MUON分析环境构建
通过conda来构建,易于重现
- 构建步骤
conda create -n muon python=3.8
conda activate muon
conda install -c conda-forge anndata=0.7.8=py38h578d9bd_1
conda install -c conda-forge scanpy=1.8.2=pyhd8ed1ab_0
conda install -c conda-forge muon=0.1.2
conda install -c conda-forge leidenalg=0.9.1=py38h8dc9893_0
cite-seq流程与rna流程(seurat/scanpy)的差异
- 蛋白数据normalize方法与RNA数据不同,为CLR方法
- 降维聚类使用WNN信息,即同时利用多组学信息,结果更加优于使用单组学进行降维聚类
muon软件的重点函数
- pt.pp.clr(prot), 用于对蛋白数据进行normalize
#Apply the centered log ratio (CLR) transformation to normalize counts in adata.X.
# normalize across cells for each feature
# x=[1,2,3,4]
return np.log1p(x / np.exp(np.log1p(x).sum() / len(x))) # in muon
return(log1p(x = x/(exp(x = sum(log1p(x = x[x > 0]), na.rm = TRUE)/length(x = x))))) # in seurat v4.0.5
- mu.pp.neighbors+sc.tl.leiden和mu.tl.leiden的异同
在查看muon的说明文档时,卡卡对于mu.pp.neighbors+sc.tl.leiden和mu.tl.leiden的不同有所疑惑:
#mu.pp.neighbors + sc.tl.leiden
mu.pp.neighbors利用不同组学的neighborhood graph生成Multimodal nearest neighbor,并利用此进行后续的leiden聚类及umap,这一步很耗内存
mu.tl.leiden则是利用单组学分别的neighborhood graph进行multiplex Leiden algorithm聚类[10]
因此mu.tl.leiden是聚类的时候将两种组学联合起来,而mu.pp.neighbors则是先将两种组学联合起来,不仅可以用于聚类,也可以用于降维,虽然更耗内存,但卡卡认为更优。
参考文献
[1] Simultaneous epitope and transcriptome measurement in single cells
[2] Integrated analysis of multimodal single-cell data
[3] Single-cell transcriptomics and surface epitope detection in human brain epileptic lesions identifies pro-inflammatory signaling, 2022
[4] Physioxia induced Downregulation of Tet2 in Hematopoietic Stem Cells contributes to Enhanced Self-renewal, 2022
[5] Single-cell multiomic analysis identifies regulatory programs in mixed-phenotype acute leukemia, 2019
[6] MUON: multimodal omics analysis framework
[7] https://github.com/scverse/scanpy/pull/1117
[8] https://scanpy.readthedocs.io/en/stable/ecosystem.html
[9] https://scanpy-tutorials.readthedocs.io/en/latest/cite-seq/pbmc5k.html
[10] Community structure in time-dependent, multiscale, and multiplex networks. Science, 328(5980), 876–8