Seurat v5
Seurat是一款用于细胞质控和分析的单细胞RNA-seq数据分析工具。它旨在使用户能够识别和解释单细胞转录组数据中的异质性来源,并整合多种类型的单细胞数据。
近日,单细胞数据分析工具Seurat发布了最新版本v5 测试版,重点更新了空间和多组学整合分析模块。
据官网介绍,此次更新主要带来了以下变动:
⒈基于测序和成像的空间数据集分析
⒉多组学整合分析
⒊更高的计算性能和更低的硬件要求
⒋关于版本兼容性
01 基于测序和成像的空间数据集分析
尽管目前基于测序( Visium、SLIDE-seq 等)和基于成像(MERFISH/Vizgen、Xenium、CosMX 等)的空间转录组技术都具有独特的优势,但针对该类技术产生的数据都需要定制特殊的分析方法、软件工具等。
在 Seurat v5 中,作者引入了灵活多样的方法以支持各种空间数据类型,并支持单细胞数据与空间数据的整合、反卷积和Niche(生态位)识别等(图1.1,图1.2)。
02 多组学整合分析
单纯基于转录组数据识别细胞身份,仍然无法充分解释一些深层次的细胞异质性问题。目前,最新的实验技术已能够对单个细胞的染色质可及性、组蛋白修饰和蛋白质水平进行检测。
在 Seurat v5 中,作者引入了“桥接”(Bridge)整合,这种统计学方法可整合不同组学的实验结果(如单独的 scRNA-seq 和 scATAC-seq 数据集),整合过程中使用了单独的多组学数据集作为分子“桥梁”。在测试案例中,作者演示了如何将 scATAC-seq 数据集映射到 scRNA-seq 数据集,以帮助用户解释和注释来自多种组学的整合数据(图2)。
此外,尽管跨数据集匹配细胞类型对于许多问题可能很重要,但用户也可能难以分辨哪种方法是最合适的,以及整合可能带来的分辨率的损失。在 Seurat v5 中,作者引入了灵活且简化的工作流程,用于整合多个单细胞转录组数据集。这样可以更轻松地探索不同整合方法的结果,并将这些结果与不含整合步骤的流程进行比较。
03 更高的计算性能和更低的硬件要求
单细胞测序数据集的大小和规模正在迅速增加,甚至超过了摩尔定律。在 Seurat v5 中,作者引入了新方法来分析、解释和探索跨越数百万个细胞的数据集,即使它们无法完全加载到内存中。
具体而言,作者引入了一种“抽样”的分析方法,将大型数据集的代表性子样本存储在内存中以实现快速和迭代分析,而完整数据集仍可通过磁盘存储访问。此外,作者还通过 Ben Parks 在 Greenleaf 实验室开发的 BPCells 包实现高性能分析。该方法通过创新的位打包压缩技术、优化的 C++ 代码以及使用流线型和惰性操作来实现高性能分析。这使得使用笔记本电脑分析数据成为可能。在测试案例中,作者对高达130 万个脑细胞数据集和来自多项研究的 150 万个细胞数据集分别进行了分析测试(图3.1,图3.2)。
04 关于版本兼容性
虽然 Seurat v5 引入了新功能,但用户不必担心。作者已确保该版本与低版本的Seurat兼容,以便用户能够继续现有分析。由于 Seurat v5 仍处于测试阶段,CRAN 安装(install.packages("Seurat"))将继续安装 Seurat v4,但用户可以按照安装页面中的说明选择加入 Seurat v5版本,并行测试。
参考资料:
https://satijalab.org/seurat/articles/get_started_v5.html
https://satijalab.org/seurat/articles/spatial_vignette.html