mtscATAC-seq 使用 mgatk 鉴定高质量变异

mgtak 共有 3 种主要模式:callbcalltenx 每种模式输出相同的文件,根据输入数据的来源和格式以及计算资源,选择合适的模式;和 2 种支持模式:checksupport 辅助更好地使用 mgtak。

  • 每个样本一个 .bam文件,则使用 call 模式;
  • 来自 10x Genomics 文库的数据,使用 tenx 模式;
  • 拥有单细胞数据或多个样本在一个 .bam文件中,但有非常规的条形码,或者是未知的条形码,使用 bcall 模式;

mgtak tenx 的使用:

输入文件为 cellranger-atac 输出文件

mgtak tenx -i $bamfile \  # cellranger-atac 输出的 bam 文件: pbmc_10k/out/possorted_bam.bam (该目录下需含有其 .bam.bi 文件)
    -b $barcodefile \  # cellranger-atac 输出 barcode 文件:pbmc_10k/out/filtered_feature_bc_matrix/barcodes.tsv
    -bt CB \  # 读取标签(一般为两个字母)以分离单个细胞;仅在' bcall '模式下有效且必需。
    -n $name \  # project name
    -o $outdir \  # outdir 
    -c 12  # 并行运行主作业的核数

-bt CB 表示 CB SAM 标签表示每个单细胞的 barcodes, 默认为 10X .bam 文件

输入文件为 cellranger 的输出:

mgatk tenx \
  -i ${outdir}/outs/possorted_bam.bam \
  -n CRR_test1 \
  -o CRR_test1_mgatk \
  -c 12 \
  -ub UB \ # 读取标签(通常是两个字母),以指定在删除重复基因分型时的UMI标签。
  -bt CB \
  -b ${outdir}/outs/filtered_feature_bc_matrix/barcodes.tsv

mgatk 的模式介绍

call

call 模式输入 .bam 文件目录,识别所有 .bam 文件,并将每个文件视为单独的样本。该模式适用于 1) Fluidigm C1, Smart-seq2 和其他基于平板的检测;2) 批量基因组学样本。要运行此模式,只需指定文件路径并添加所需的任何其他用户选项。

mgatk call -i folder_of_bam_files ...

bcall

bcall 模式利用用户指定的 cell barcode 来识别不同的细胞,可以是已知的条形码列表 (-b FILE),也可以是通过识别大于X 个 mtDNA reads 的条形码 (-mb X)。将主.bam 文件拆分为数千个单细胞 bam,然后依次处理它们。打开数千个 tile 会对文件系统造成压力,可使用 -ns 来减少一次打开的文件数量。

使用 bcall,指定包含 mtDNA reads 的有效的 .bam 文件,并使用 -b 或 -mb 选项:

mgatk bcall -i path_to_bam_file ...

tenx

tenx 模式利用 10x Genomics .bam 文件。16bp 条形码和可选的 UMI 用于实现更智能的处理,从而避免将原始的 bam 文件拆分为数千个单独的文件。运行时间也更快。例如,输入文件是 CellRanger 或 CellRanger- atac 的输出)。

基本输入需要一个 bam文件和一个用于分析的已知 HQ 条形码,例如由 CellRanger knee call 产生的条形码:

mgatk tenx -i path_to_bam_file -b known_barcodes_file ...

check

check 模式检查上述的输入。减少不正确的文件路径,错误的参考基因组规格,或缺少依赖项等问题影响分析。

support

support 模式显示可用的内置配置。

鉴定信息的变体

使用 Seurat/Signac R 包分析 mtscATAC-seq 的 mtDNA变异

适合多种形式

  • ReadMGATK 从 mgatk 输出中导入文件,并将它们存储在Seurat对象中;
  • IdentifyVariant 利用 mtscATAC-seq 库上的链一致性和 VMR 统计来鉴定高质量的亚克隆变异;
  • FindClonotypes 从前面的函数中获取高置信度的变体,然后通过异质空间中的细胞-细胞邻居图构建来推断克隆;
  • AlleleFreq 计算每个细胞/变体的等位基因频率;

使用 mgatk 自动鉴定

不适用于液滴的 scRNA-seq ,因为只有一条链被测序。

stand correlation 和 variance-mean ratio 的图是识别 mtDNA 变异信息量最大的图,默认输出在 ".vmr_strand_plot.png"。x轴代表了一个变体在细胞中的正向和反向链读取计数之间的 Pearson 相关性。该指标基于链间异质性的总体一致性,有效地分离了低质量变异和高质量变异。总的来说,是确定一种突变模式,其中一些变异比其他变异更常见(转换比颠换更常见)。此图可以在 mgatk 输出的 ".variant_stats.tsv.gz" 和 "refallee .txt" 文件中快速生成。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容