CUT&Tag 数据分析(1)

官网给的参数其实大多也是默认参数,建议使用管道符或者for循环,事半功倍,不然运行时间太长了。

1.检测数据完整性

公司拿到的数据无论是cleandata还是rawdata,必须经质控才可以进行下边的操作。我拿到的cleandata存在接头未去除的问题,比对基因组只有50% map,使用--detect_adapter_for_pe 参数。


for i in `ls 00.CleanData/`;

do

    printf "prepare $i\n\n"

    fastp --detect_adapter_for_pe  \

    -i /mnt/g/linux/20231129cuttag/00.CleanData/"$i"/"$i"_1.clean.fq.gz -o /mnt/g/linux/20231129cuttag/fastp/"$i"_1.fastq.gz\

    -I /mnt/g/linux/20231129cuttag/00.CleanData/"$i"/"$i"_2.clean.fq.gz -O /mnt/g/linux/20231129cuttag/fastp/"$i"_2.fastq.gz\

    -h "$i".html

    printf "finish $i";

done

2.对比基因组并转换成bam格式

使用bowtie2进行参考基因组索引构建及序列比对,并使用管道符将输出文件直接转换成bam格式,会节省很多时间。
CUT&Tag测序应该50 M reads比较好,测序深度不够,要保证覆盖度 12G???

for i in `ls *_1.fastq.gz`;
do
    i=${i/_1.fastq.gz/};
    printf "${i}"
    bowtie2 --end-to-end --very-sensitive --no-mixed --no-discordant --phred33 -I 10 -x /mnt/g/linux/chip/gencode/genome \
    -1 /mnt/g/linux/20231129cuttag/fastp/${i}_1.fastq.gz \
    -2 /mnt/g/linux/20231129cuttag/fastp/${i}_2.fastq.gz | samtools sort -n -O bam -T ${i} > /mnt/g/linux/20231129cuttag/sam/"$i"_output_sorted.bam;
    printf "finish ${i}";
done

一定要使用samtools sort -n,按read名排序把成对的排序到一起,这是后续代码成功运行的关键。

79c0e15fc19c1f06cc3ab48a3c2eb1d.png

3. 提取paired reads中比对到参考基因组上的数据

根据FLAG进行过滤后(不可以省略),并没有根据MAPQ再次过滤,可以再次过滤选择。

$ samtools view -bF 12 ${i}_output_sorted.bam > ${i}.F12.bam 

4. 根据MAPQ过滤+去重

#!/bin/bash
# This is for hisat2 batch aligne
for i in `ls *.F12.bam`;
do
    i=${i/.F12.bam/};
    printf "${i}"
    samtools view -q 10 -O bam -o /mnt/g/linux/20231129cuttag/1219MAPQ/${i}_MAPQ.bam /mnt/g/linux/20231129cuttag/bam/${i}.F12.bam
    printf "finish ${i}";
done

转录因子在进行序列对比后KO和WT细胞系mapped reads如果总体上未呈现趋势,可能是PCR重复。我们需要评估样本PCR重复,确定是否去重。

#!/bin/bash
# This is for bowtie2 batch aligne
for i in `ls *_MAPQ.bam`;
do
    i=${i/_MAPQ.bam/};
    printf "prepare $i"
    ./sambamba markdup -r /mnt/g/linux/20231129cuttag/1219MAPQ/${i}_MAPQ.bam /mnt/g/linux/20231129cuttag/1219MAPQ/${i}_dup.bam;
    printf "finish $i";
done

4. 评估比对上的片段大小分布

CUT&Tag inserts adapters on either side of chromatin particles in the vicinity of the tethered enzyme, although tagmentation within chromatin particles can also occur. So, CUT&Tag reactions targeting a histone modification predominantly results in fragments that are nucleosomal lengths (~180 bp), or multiples of that length. CUT&Tag targeting transcription factors predominantly produce nucleosome-sized fragments and variable amounts of shorter fragments, from neighboring nucleosomes and the factor-bound site, respectively. Tagmentation of DNA on the surface of nucleosomes also occurs, and plotting fragment lengths with single-basepair resolution reveal a 10-bp sawtooth periodicity, which is typical of successful CUT&Tag experiments.

组蛋白的cut&tag会有核小体(200 bp)或者数倍于该长度的片段产生,但是转录因子跟结合位点结合的话就会有小片段。Tn5切割抗体结合位点,转录因子跟target序列结合后就会被切开,所以就会有不是核小体长度的小片段。笔者就是转录因子的测序结果,虽然没有官网提供的图片那么漂亮,但大致会有一个周期性片段分布的趋势,同时产生了一些小片段。

image.png

在150bp前出现第一个峰,这个峰值代表的就是切掉了开放的染色质区域,同时伴随着规律的锯齿状小峰,基本是10bp一个小锯齿。
在200bp左右处的峰值主要是由于切割核小体导致的,一个核小体缠绕的DNA大约在147bp,加上切割的时候不可能那么精确,所以大概在200bp。后续的峰值代表切下来两个、三个核小体以及n倍核小体情况,而且峰值是越来越低的,说明切割到染色质远端的核小体的概率是越来越低的。

测序偏好性??500bp以下测得序列准确

for i in `ls *.sortname.bam`;
do
    i=${i/.sortname.bam/};
    printf "prepare $i"
    samtools view ${i}.sortname.bam | \
    awk -F'\t' 'function abs(x){return ((x < 0.0) ? -x : x)} {print $1"\t"abs($9)}' | \
    sort | uniq | cut -f2 > /mnt/g/linux/20231129cuttag/bam/bed/fragmentLen/${i}_fragmentLen.txt
    printf "finish $i";
done

即使不理解代码的含义,也可以直接运行,官网也采取的是默认参数。

再用R可视化试试

data <- read.table("G:/linux/20231129cuttag/bam/bed/fragmentLen/sample_fragmentLen.txt")  
# 设置插入片段长度的阈值,过滤掉太长的片段
length_cutoff <- 1200
fragment <- data$V1[data$V1 <= length_cutoff]   
fragment

# 利用直方图统计频数分布,设置柱子个数
breaks_num <- 500
res <- hist(fragment, breaks = breaks_num, plot = FALSE)
# 添加坐标原点
plot(x = c(0, res$breaks),
     y = c(0, 0, res$counts) / 10^2,
     type = "l", col = "red",
     xlab = "Fragment length(bp)",
     ylab = expression(Normalized ~ read ~ density ~ 10^2),
     main = "Sample Fragment sizes")

官网的图长这个样子,组蛋白就是很漂亮...


image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。

推荐阅读更多精彩内容