PB甲基化流程(Revio和Sequel II)
众所周知,PacBio的下机数据是可以用于提取甲基化信息的,显示在BAM里就是ML和MM的tag(熟悉BAM格式的应该比较清楚)。2023年开始,Revio机器直接生成具有甲基化数据的CCS格式的BAM。将这些下机的BAM与参考基因组比对,并且用专门的工具,就可以提取出这些原始文件中储存的甲基化信息。
Install CpG tools
wget https://github.com/PacificBiosciences/pb-CpG-tools/releases/download/v2.3.1/pb-CpG-tools-v2.3.1-x86_64-unknown-linux-gnu.tar.gz
tar -xzf pb-CpG-tools-v2.3.1-x86_64-unknown-linux-gnu.tar.gz
pb-CpG-tools-v2.3.1-x86_64-unknown-linux-gnu/bin/aligned_bam_to_cpg_scores --help
Install PBMM2
wget https://github.com/PacificBiosciences/pbmm2/releases/download/v1.13.0/pbmm2
ALign
pbmm2 align $ref $bam $prefix.sort.bam --sort
Call methylation
aligned_bam_to_cpg_scores --bam $prefix.sort.bam --output-prefix $prefix --model $dir/pileup_calling_model.v1.tflite --threads 10
HIFI Subreads PIPELINE 如果是SUBreads 要加两步。 在Revio之前测序的大部分是SeqII平台的,这些数据下机是subreads,公司给的CCS一般是没有甲基化信息的。
只有Subreads数据里有这种原始的信息,可以提甲基化。
这部分只需要在原来流程的基础上加两步:
First, download pbccs and pbjasmine with conda,
ccs subreads.bam hifi_reads.bam --hifi-kinetics -j 100 (-j is the threads used in this process)
jasminehifi_reads.bam methylation.hifi_reads.bam
then align the bam to genome with PBMM2, and follow the usual step above.