引言
本博客旨在详细展示如何将 ArchR 项目中的数据转换为 Signac 格式对象,为下游单细胞 ATAC-seq 数据分析提供支持。主要通过 六个简短的代码块 系统性说明 ArchR 对象中的核心数据资源,包括 Peak_Counts 矩阵、细胞(meta)信息表以及 Fragments 文件的高效提取方法。随后,基于这些核心数据来重构一个 Signac 对象,作为拓展单细胞 ATAC-seq 数据分析的基础。最后,为了说明拓展的应用,本教程提供了一个应用范例,演示了如何将第三方计算的 Peak-To-Gene 相关性数据 集成到 Signac 对象中,来绘制 Signac 风格的基因组轨迹图(Genome Track Plot
),提升数据解读的便捷性和直观性。
环境准备
在开始之前,请确保已安装以下 R 包:ArchR、Signac、Seurat、dplyr、plyranges、rtracklayer
此外,请确认你的计算环境能够处理大规模数据分析,建议为 R 设置多线程模式以加速计算。以下代码段用于初始化所需的依赖包并设置线程数:
pacman::p_load(ArchR, Seurat, dplyr)
addArchRThreads(threads = (future::availableCores() - 5))
第一步:加载 ArchR 项目
加载一个已存在的 ArchR 项目是第一步操作。您可以通过以下代码实现:
arch_proj <- loadArchRProject('XXXX')
请将 'XXXX'
替换为您的实际 ArchR 项目路径。
第二步:提取 Peak Counts 矩阵
从 ArchR 项目中提取 Peak Counts 矩阵是数据准备的核心步骤。在此过程中,需要注意对稀疏矩阵的行名和列名进行格式化,以便兼容 Signac 的数据结构。
arch_pm <- ArchR::getMatrixFromProject(arch_proj, useMatrix='PeakMatrix')
peak_counts <- assays(arch_pm)$PeakMatrix
rownames(peak_counts) <- data.frame(arch_proj@peakSet) %>%
tidyr::unite("cre", 1:3, sep = "-") %>%
pull(cre)
colnames(peak_counts) <- stringr::str_split(colnames(peak_counts), "#", simplify = T)[, 2] %>% as.vector()
在这一步中:
- 提取了 Peak Counts 矩阵并格式化行名为
"chrN-000-000"
(Signa 的普遍形式)。 - 由于 ArchR 生成矩阵的时候会重编码 Fragments 文件里面的原始
CellBarcode(CB)
为"Prefix(Fragments)#CB"
形式,因此这里调整了列名以恢复原始细胞条码(Cell Barcode, CB)。
第三步:准备细胞(meta)信息表
接下来,从 ArchR 项目中提取细胞(meta)信息表,并确保表中的行名与 Fragments 文件里面的原始细胞条码格式一致。
meta_data <- as.data.frame(arch_proj@cellColData)
rownames(meta_data) <- stringr::str_split(rownames(meta_data), "#", simplify = T)[, 2] %>% as.vector()
细胞(meta)信息是后续分析的基础,它包含了细胞的相关属性信息。
第四步:创建 Fragments 对象
Signac 中的一些分析(例如 CoveragePlot
)依赖于 Fragments 文件。因此,最好创建 Fragments 对象,以确保对象的完整性: