ArchR-To-Signac 转换:拓展单细胞ATAC分析

引言

\,\,\,\,\,\, 本博客旨在详细展示如何将 ArchR 项目中的数据转换为 Signac 格式对象,为下游单细胞 ATAC-seq 数据分析提供支持。主要通过 六个简短的代码块 系统性说明 ArchR 对象中的核心数据资源,包括 Peak_Counts 矩阵、细胞(meta)信息表以及 Fragments 文件的高效提取方法。随后,基于这些核心数据来重构一个 Signac 对象,作为拓展单细胞 ATAC-seq 数据分析的基础。最后,为了说明拓展的应用,本教程提供了一个应用范例,演示了如何将第三方计算的 Peak-To-Gene 相关性数据 集成到 Signac 对象中,来绘制 Signac 风格的基因组轨迹图(Genome Track Plot),提升数据解读的便捷性和直观性。

示例样图

环境准备

在开始之前,请确保已安装以下 R 包:ArchR、Signac、Seurat、dplyr、plyranges、rtracklayer

此外,请确认你的计算环境能够处理大规模数据分析,建议为 R 设置多线程模式以加速计算。以下代码段用于初始化所需的依赖包并设置线程数:

pacman::p_load(ArchR, Seurat, dplyr)
addArchRThreads(threads = (future::availableCores() - 5))

第一步:加载 ArchR 项目

加载一个已存在的 ArchR 项目是第一步操作。您可以通过以下代码实现:

arch_proj <- loadArchRProject('XXXX')

请将 'XXXX' 替换为您的实际 ArchR 项目路径。

第二步:提取 Peak Counts 矩阵

从 ArchR 项目中提取 Peak Counts 矩阵是数据准备的核心步骤。在此过程中,需要注意对稀疏矩阵的行名和列名进行格式化,以便兼容 Signac 的数据结构。

arch_pm <- ArchR::getMatrixFromProject(arch_proj, useMatrix='PeakMatrix')
peak_counts <- assays(arch_pm)$PeakMatrix

rownames(peak_counts) <- data.frame(arch_proj@peakSet) %>%
    tidyr::unite("cre", 1:3, sep = "-") %>%
    pull(cre)

colnames(peak_counts) <- stringr::str_split(colnames(peak_counts), "#", simplify = T)[, 2] %>% as.vector()

在这一步中:

  • 提取了 Peak Counts 矩阵并格式化行名为 "chrN-000-000" (Signa 的普遍形式)。
  • 由于 ArchR 生成矩阵的时候会重编码 Fragments 文件里面的原始 CellBarcode(CB)"Prefix(Fragments)#CB"形式,因此这里调整了列名以恢复原始细胞条码(Cell Barcode, CB)。

第三步:准备细胞(meta)信息表

接下来,从 ArchR 项目中提取细胞(meta)信息表,并确保表中的行名与 Fragments 文件里面的原始细胞条码格式一致。

meta_data <- as.data.frame(arch_proj@cellColData)
rownames(meta_data) <- stringr::str_split(rownames(meta_data), "#", simplify = T)[, 2] %>% as.vector()

细胞(meta)信息是后续分析的基础,它包含了细胞的相关属性信息。

第四步:创建 Fragments 对象

Signac 中的一些分析(例如 CoveragePlot)依赖于 Fragments 文件。因此,最好创建 Fragments 对象,以确保对象的完整性:

还有 67% 的精彩内容
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。
支付 ¥9.99 继续阅读

推荐阅读更多精彩内容