CUT&Tag 数据分析(1)

官网给的参数其实大多也是默认参数,建议使用管道符或者for循环,事半功倍,不然运行时间太长了。

1.检测数据完整性

公司拿到的数据无论是cleandata还是rawdata,必须经质控才可以进行下边的操作。我拿到的cleandata存在接头未去除的问题,比对基因组只有50% map,使用--detect_adapter_for_pe 参数。


for i in `ls 00.CleanData/`;

do

    printf "prepare $i\n\n"

    fastp --detect_adapter_for_pe  \

    -i /mnt/g/linux/20231129cuttag/00.CleanData/"$i"/"$i"_1.clean.fq.gz -o /mnt/g/linux/20231129cuttag/fastp/"$i"_1.fastq.gz\

    -I /mnt/g/linux/20231129cuttag/00.CleanData/"$i"/"$i"_2.clean.fq.gz -O /mnt/g/linux/20231129cuttag/fastp/"$i"_2.fastq.gz\

    -h "$i".html

    printf "finish $i";

done

2.对比基因组并转换成bam格式

使用bowtie2进行参考基因组索引构建及序列比对,并使用管道符将输出文件直接转换成bam格式,会节省很多时间。
CUT&Tag测序应该50 M reads比较好,测序深度不够,要保证覆盖度 12G???

for i in `ls *_1.fastq.gz`;
do
    i=${i/_1.fastq.gz/};
    printf "${i}"
    bowtie2 --end-to-end --very-sensitive --no-mixed --no-discordant --phred33 -I 10 -x /mnt/g/linux/chip/gencode/genome \
    -1 /mnt/g/linux/20231129cuttag/fastp/${i}_1.fastq.gz \
    -2 /mnt/g/linux/20231129cuttag/fastp/${i}_2.fastq.gz | samtools sort -n -O bam -T ${i} > /mnt/g/linux/20231129cuttag/sam/"$i"_output_sorted.bam;
    printf "finish ${i}";
done

一定要使用samtools sort -n,按read名排序把成对的排序到一起,这是后续代码成功运行的关键。

79c0e15fc19c1f06cc3ab48a3c2eb1d.png

3. 提取paired reads中比对到参考基因组上的数据

根据FLAG进行过滤后(不可以省略),并没有根据MAPQ再次过滤,可以再次过滤选择。

$ samtools view -bF 12 ${i}_output_sorted.bam > ${i}.F12.bam 

4. 根据MAPQ过滤+去重

#!/bin/bash
# This is for hisat2 batch aligne
for i in `ls *.F12.bam`;
do
    i=${i/.F12.bam/};
    printf "${i}"
    samtools view -q 10 -O bam -o /mnt/g/linux/20231129cuttag/1219MAPQ/${i}_MAPQ.bam /mnt/g/linux/20231129cuttag/bam/${i}.F12.bam
    printf "finish ${i}";
done

转录因子在进行序列对比后KO和WT细胞系mapped reads如果总体上未呈现趋势,可能是PCR重复。我们需要评估样本PCR重复,确定是否去重。

#!/bin/bash
# This is for bowtie2 batch aligne
for i in `ls *_MAPQ.bam`;
do
    i=${i/_MAPQ.bam/};
    printf "prepare $i"
    ./sambamba markdup -r /mnt/g/linux/20231129cuttag/1219MAPQ/${i}_MAPQ.bam /mnt/g/linux/20231129cuttag/1219MAPQ/${i}_dup.bam;
    printf "finish $i";
done

4. 评估比对上的片段大小分布

CUT&Tag inserts adapters on either side of chromatin particles in the vicinity of the tethered enzyme, although tagmentation within chromatin particles can also occur. So, CUT&Tag reactions targeting a histone modification predominantly results in fragments that are nucleosomal lengths (~180 bp), or multiples of that length. CUT&Tag targeting transcription factors predominantly produce nucleosome-sized fragments and variable amounts of shorter fragments, from neighboring nucleosomes and the factor-bound site, respectively. Tagmentation of DNA on the surface of nucleosomes also occurs, and plotting fragment lengths with single-basepair resolution reveal a 10-bp sawtooth periodicity, which is typical of successful CUT&Tag experiments.

组蛋白的cut&tag会有核小体(200 bp)或者数倍于该长度的片段产生,但是转录因子跟结合位点结合的话就会有小片段。Tn5切割抗体结合位点,转录因子跟target序列结合后就会被切开,所以就会有不是核小体长度的小片段。笔者就是转录因子的测序结果,虽然没有官网提供的图片那么漂亮,但大致会有一个周期性片段分布的趋势,同时产生了一些小片段。

image.png

在150bp前出现第一个峰,这个峰值代表的就是切掉了开放的染色质区域,同时伴随着规律的锯齿状小峰,基本是10bp一个小锯齿。
在200bp左右处的峰值主要是由于切割核小体导致的,一个核小体缠绕的DNA大约在147bp,加上切割的时候不可能那么精确,所以大概在200bp。后续的峰值代表切下来两个、三个核小体以及n倍核小体情况,而且峰值是越来越低的,说明切割到染色质远端的核小体的概率是越来越低的。

测序偏好性??500bp以下测得序列准确

for i in `ls *.sortname.bam`;
do
    i=${i/.sortname.bam/};
    printf "prepare $i"
    samtools view ${i}.sortname.bam | \
    awk -F'\t' 'function abs(x){return ((x < 0.0) ? -x : x)} {print $1"\t"abs($9)}' | \
    sort | uniq | cut -f2 > /mnt/g/linux/20231129cuttag/bam/bed/fragmentLen/${i}_fragmentLen.txt
    printf "finish $i";
done

即使不理解代码的含义,也可以直接运行,官网也采取的是默认参数。

再用R可视化试试

data <- read.table("G:/linux/20231129cuttag/bam/bed/fragmentLen/sample_fragmentLen.txt")  
# 设置插入片段长度的阈值,过滤掉太长的片段
length_cutoff <- 1200
fragment <- data$V1[data$V1 <= length_cutoff]   
fragment

# 利用直方图统计频数分布,设置柱子个数
breaks_num <- 500
res <- hist(fragment, breaks = breaks_num, plot = FALSE)
# 添加坐标原点
plot(x = c(0, res$breaks),
     y = c(0, 0, res$counts) / 10^2,
     type = "l", col = "red",
     xlab = "Fragment length(bp)",
     ylab = expression(Normalized ~ read ~ density ~ 10^2),
     main = "Sample Fragment sizes")

官网的图长这个样子,组蛋白就是很漂亮...


image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容