PacBio 甲基化分析

PB甲基化流程(Revio和Sequel II)
众所周知,PacBio的下机数据是可以用于提取甲基化信息的,显示在BAM里就是ML和MM的tag(熟悉BAM格式的应该比较清楚)。2023年开始,Revio机器直接生成具有甲基化数据的CCS格式的BAM。将这些下机的BAM与参考基因组比对,并且用专门的工具,就可以提取出这些原始文件中储存的甲基化信息。

Install CpG tools

    wget https://github.com/PacificBiosciences/pb-CpG-tools/releases/download/v2.3.1/pb-CpG-tools-v2.3.1-x86_64-unknown-linux-gnu.tar.gz
    tar -xzf pb-CpG-tools-v2.3.1-x86_64-unknown-linux-gnu.tar.gz
    pb-CpG-tools-v2.3.1-x86_64-unknown-linux-gnu/bin/aligned_bam_to_cpg_scores --help

Install PBMM2

    wget https://github.com/PacificBiosciences/pbmm2/releases/download/v1.13.0/pbmm2

ALign

    pbmm2 align $ref $bam $prefix.sort.bam --sort

Call methylation

    aligned_bam_to_cpg_scores --bam $prefix.sort.bam --output-prefix $prefix  --model $dir/pileup_calling_model.v1.tflite  --threads 10

HIFI Subreads PIPELINE 如果是SUBreads 要加两步。 在Revio之前测序的大部分是SeqII平台的,这些数据下机是subreads,公司给的CCS一般是没有甲基化信息的。

只有Subreads数据里有这种原始的信息,可以提甲基化。
这部分只需要在原来流程的基础上加两步:

First, download pbccs and pbjasmine with conda,

    ccs subreads.bam  hifi_reads.bam --hifi-kinetics -j 100 (-j is the threads used in this process)
    jasminehifi_reads.bam methylation.hifi_reads.bam

then align the bam to genome with PBMM2, and follow the usual step above.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容