muon来分析cite-seq数据

卡卡最近接触到了cite-seq数据,需要对cite-seq的数据分析流程进行搭建,因此调研了相关知识。

cite-seq

CITE-seq技术是2017年发表的一种技术[1],能够同时测定数千个细胞的RNA转录本及蛋白标记物。此技术出现时间较久,但是却似乎没有统一的标准分析流程:

  • 不同的文章对于cite-seq产生的数据的分析都没有统一标准
  • 查阅了大量的相关资料,最后选取muon (https://github.com/scverse/muon)软件来进行分析

为何选取muon流程分析cite-seq

  • 此软件由python撰写,python是生信工作中使用广泛的语言,且能够直接对接卡卡公司的数据库
  • cite-seq技术的原始文章[1]使用了clr(centered log ratio)矫正方法对蛋白数据进行normalize, muon也采用了此方法
  • weighted Nearest Neighbor Analysis[2]用于多组学数据分析的认可度较高,muon采用了此方法
  • 多篇cite-seq文章分析流程不统一[3-5],但是统一的观点是:组学分开分析,不如多组学联合分析[2];而muon正是两种组学联合分析
  • scanpy开发团队开发的muon[6],且推荐使用此软件[7-8],并不再维护之前的scanpy分析cite-seq的流程[9]
  • 此软件能够与scanpy兼容,且其mudata数据结构与anndata类似,能够同时存储多维数据,明显优于使用单独anndata数据结构来存储多维信息

MUON分析环境构建

通过conda来构建,易于重现

  • 构建步骤
conda create -n muon python=3.8
conda activate muon
conda install -c conda-forge anndata=0.7.8=py38h578d9bd_1
conda install -c conda-forge scanpy=1.8.2=pyhd8ed1ab_0
conda install -c conda-forge muon=0.1.2
conda install -c conda-forge leidenalg=0.9.1=py38h8dc9893_0

cite-seq流程与rna流程(seurat/scanpy)的差异

  • 蛋白数据normalize方法与RNA数据不同,为CLR方法
  • 降维聚类使用WNN信息,即同时利用多组学信息,结果更加优于使用单组学进行降维聚类

muon软件的重点函数

  • pt.pp.clr(prot), 用于对蛋白数据进行normalize
#Apply the centered log ratio (CLR) transformation to normalize counts in adata.X.
# normalize across cells for each feature
# x=[1,2,3,4]
return np.log1p(x / np.exp(np.log1p(x).sum() / len(x))) # in muon
return(log1p(x = x/(exp(x = sum(log1p(x = x[x > 0]), na.rm = TRUE)/length(x = x))))) # in seurat v4.0.5
  • mu.pp.neighbors+sc.tl.leiden和mu.tl.leiden的异同
    在查看muon的说明文档时,卡卡对于mu.pp.neighbors+sc.tl.leiden和mu.tl.leiden的不同有所疑惑:
#mu.pp.neighbors + sc.tl.leiden
mu.pp.neighbors利用不同组学的neighborhood graph生成Multimodal nearest neighbor,并利用此进行后续的leiden聚类及umap,这一步很耗内存
mu.tl.leiden则是利用单组学分别的neighborhood graph进行multiplex Leiden algorithm聚类[10]

因此mu.tl.leiden是聚类的时候将两种组学联合起来,而mu.pp.neighbors则是先将两种组学联合起来,不仅可以用于聚类,也可以用于降维,虽然更耗内存,但卡卡认为更优。

参考文献

[1] Simultaneous epitope and transcriptome measurement in single cells
[2] Integrated analysis of multimodal single-cell data
[3] Single-cell transcriptomics and surface epitope detection in human brain epileptic lesions identifies pro-inflammatory signaling, 2022
[4] Physioxia induced Downregulation of Tet2 in Hematopoietic Stem Cells contributes to Enhanced Self-renewal, 2022
[5] Single-cell multiomic analysis identifies regulatory programs in mixed-phenotype acute leukemia, 2019
[6] MUON: multimodal omics analysis framework
[7] https://github.com/scverse/scanpy/pull/1117
[8] https://scanpy.readthedocs.io/en/stable/ecosystem.html
[9] https://scanpy-tutorials.readthedocs.io/en/latest/cite-seq/pbmc5k.html
[10] Community structure in time-dependent, multiscale, and multiplex networks. Science, 328(5980), 876–8

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容