mgtak 共有 3 种主要模式:call
、bcall
、tenx
每种模式输出相同的文件,根据输入数据的来源和格式以及计算资源,选择合适的模式;和 2 种支持模式:check
、support
辅助更好地使用 mgtak。
- 每个样本一个 .bam文件,则使用
call
模式; - 来自 10x Genomics 文库的数据,使用
tenx
模式; - 拥有单细胞数据或多个样本在一个 .bam文件中,但有非常规的条形码,或者是未知的条形码,使用
bcall
模式;
mgtak tenx 的使用:
输入文件为 cellranger-atac 输出文件
mgtak tenx -i $bamfile \ # cellranger-atac 输出的 bam 文件: pbmc_10k/out/possorted_bam.bam (该目录下需含有其 .bam.bi 文件)
-b $barcodefile \ # cellranger-atac 输出 barcode 文件:pbmc_10k/out/filtered_feature_bc_matrix/barcodes.tsv
-bt CB \ # 读取标签(一般为两个字母)以分离单个细胞;仅在' bcall '模式下有效且必需。
-n $name \ # project name
-o $outdir \ # outdir
-c 12 # 并行运行主作业的核数
-bt CB 表示 CB SAM 标签表示每个单细胞的 barcodes, 默认为 10X .bam 文件
输入文件为 cellranger 的输出:
mgatk tenx \
-i ${outdir}/outs/possorted_bam.bam \
-n CRR_test1 \
-o CRR_test1_mgatk \
-c 12 \
-ub UB \ # 读取标签(通常是两个字母),以指定在删除重复基因分型时的UMI标签。
-bt CB \
-b ${outdir}/outs/filtered_feature_bc_matrix/barcodes.tsv
mgatk 的模式介绍
call
call
模式输入 .bam 文件目录,识别所有 .bam 文件,并将每个文件视为单独的样本。该模式适用于 1) Fluidigm C1, Smart-seq2 和其他基于平板的检测;2) 批量基因组学样本。要运行此模式,只需指定文件路径并添加所需的任何其他用户选项。
mgatk call -i folder_of_bam_files ...
bcall
bcall
模式利用用户指定的 cell barcode 来识别不同的细胞,可以是已知的条形码列表 (-b FILE),也可以是通过识别大于X 个 mtDNA reads 的条形码 (-mb X)。将主.bam 文件拆分为数千个单细胞 bam,然后依次处理它们。打开数千个 tile 会对文件系统造成压力,可使用 -ns 来减少一次打开的文件数量。
使用 bcall,指定包含 mtDNA reads 的有效的 .bam 文件,并使用 -b 或 -mb 选项:
mgatk bcall -i path_to_bam_file ...
tenx
tenx
模式利用 10x Genomics .bam 文件。16bp 条形码和可选的 UMI 用于实现更智能的处理,从而避免将原始的 bam 文件拆分为数千个单独的文件。运行时间也更快。例如,输入文件是 CellRanger 或 CellRanger- atac 的输出)。
基本输入需要一个 bam文件和一个用于分析的已知 HQ 条形码,例如由 CellRanger knee call 产生的条形码:
mgatk tenx -i path_to_bam_file -b known_barcodes_file ...
check
check
模式检查上述的输入。减少不正确的文件路径,错误的参考基因组规格,或缺少依赖项等问题影响分析。
support
support
模式显示可用的内置配置。
鉴定信息的变体
使用 Seurat/Signac R 包分析 mtscATAC-seq 的 mtDNA变异
适合多种形式
-
ReadMGATK
从 mgatk 输出中导入文件,并将它们存储在Seurat对象中; -
IdentifyVariant
利用 mtscATAC-seq 库上的链一致性和 VMR 统计来鉴定高质量的亚克隆变异; -
FindClonotypes
从前面的函数中获取高置信度的变体,然后通过异质空间中的细胞-细胞邻居图构建来推断克隆; -
AlleleFreq
计算每个细胞/变体的等位基因频率;
使用 mgatk 自动鉴定
不适用于液滴的 scRNA-seq ,因为只有一条链被测序。
stand correlation 和 variance-mean ratio 的图是识别 mtDNA 变异信息量最大的图,默认输出在 ".vmr_strand_plot.png"。x轴代表了一个变体在细胞中的正向和反向链读取计数之间的 Pearson 相关性。该指标基于链间异质性的总体一致性,有效地分离了低质量变异和高质量变异。总的来说,是确定一种突变模式,其中一些变异比其他变异更常见(转换比颠换更常见)。此图可以在 mgatk 输出的 ".variant_stats.tsv.gz" 和 "refallee .txt" 文件中快速生成。