ChIP-seq数据质控与过滤

刘小泽写于2020.4.15
首先是ChIP-seq分析的前言介绍部分：
1：了解ChIP-seq的实验流程
 2：继续了解ChIP-seq
3：关于ChIP-seq的实验对照与偏差来源
 4：ChIP-seq的实验设计补充
 5：ChIP-seq数据库及实战数据介绍
然后开始实战部分：
6：ChIP-seq计算资源准备与实战数据下载

1 质控

早期生成的fastq数据，它的质量值是基于Phred 64（Illumina 1.3 and 1.4），现在的版本使用的Phred 33 （Illumina 1.8+）

使用fastqc进行质控，它的结果有几个关注点：

质量值（图A）：当50%的reads都显示质量值Q小于25或者10%的reads Q小于10会报warning，表示需要进行过滤部分碱基
碱基组成（图B）：一般是A=T，C=G，并且含量应该是基本固定的（呈现一条直线）
平均GC含量（图C、D）：复杂的ChIP-seq文库中reads应该是随机挑选测序的，GC含量应该服从正态分布，如果出现离散（如图C）表示可能存在其他不同GC含量的物种污染，一般这种情况去掉接头后就有所改善。不过在ChIP-seq中，当转录因子结合在了CpG岛或者结合在了一些低复杂度的区域（如端粒）也会偏离正态分布
接头：当测序的DNA片段比读长还短时就会测到侧边的接头。如果发现接头过多，可能是文库制备时打断的太碎，fastqc有几个默认的常用的接头序列用于检测

CONFIG=~/public/mm_nrf1/sra/0-config.txt
RAW_DIR=~/public/mm_nrf1/raw
CLEAN_DIR=~/public/mm_nrf1/clean
QC_DIR=~/public/mm_nrf1/qc

cat $CONFIG | while read i;do
    config=($i)
    name=${config[1]}
    # -q表示quite
    fastqc -q -t 5 -o $QC_DIR $RAW_DIR/${name}.fastq.gz
done

2 过滤

主要针对低质量reads和接头，注意：如果要比较不同的样本，要保持它们各自过滤前后一样的reads长度，避免给比对率引入人为因素（长短不一的两条reads，本身就不能放在一起比较）

2.1 去接头

如果DNA片段比测序读长还短，那么得到的reads就会包含下游的接头序列。而接头序列可能会影响比对结果（不过一般接头都是重复序列，有的也很难比对到基因组，但是去掉总比带着好）

ChIP-exo和ChIP-nexus方法得到的DNA片段长度都小于200bp，因此测序reads的接头含量要比常规的ChIP-seq要高，它们去接头更是重要

不同的过滤软件都会有和接头stringency相关的参数设置，比如reads和接头最小的重叠碱基数、最多的错配数。当设置一个比较小的stringency值，就保证最为严格，能检测绝大多数的接头。

比如trim_galore的这个参数（默认是非常严格：数值1）：

2.2 去低质量碱基

大部分的ChIP-seq数据都是短读长，去低质量不是必须的。但是fastqc图中大量碱基质量如果存在明显的下降，那么就需要去掉

常规的去除方法是：对每条read，从检测到Q值低于某个阈值（比如Q<20）开始去除，直到恢复正常的Q值。但如果只是某个碱基的质量低比较低，这个还能忍受，可以设置一个滑窗而不用一个碱基一个碱基地去看，通过检测滑窗的平均质量值是否低于阈值来判断是不是要去掉这个滑窗中的碱基。

另外，如果存在不同长度的几组数据，可以直接指定固定长度（比如：为了比较50nt和100nt的单端ChIP-seq数据，可以将所有的reads长度都剪到50nt）

note:

如果是分析X或Y染色体的allele-specific binding，它需要许多可靠的SNVs，因此需要更高的Q值来过滤，并且过滤标准更严格，不建议使用滑窗式的过滤

CONFIG=~/public/mm_nrf1/sra/0-config.txt
RAW_DIR=~/public/mm_nrf1/raw
CLEAN_DIR=~/public/mm_nrf1/clean
QC_DIR=~/public/mm_nrf1/qc

cat $CONFIG | while read i;do
    config=($i)
    name=${config[1]}
    # --length 20：当过滤后如果read长度低于20，就直接去掉这个read（默认20）
    # --fastqc：过滤完直接再次进行fastqc
    trim_galore -q 20 --fastqc --length 20 --gzip --stringency 2 -o $CLEAN_DIR/${name}.fastq.gz $FQ_DIR/${name}.fastq.gz

done

运行时会把所有的参数列出来，方便参考学习，看到其中就有--fastqc的命令，另外还有一个参数：-j 它是多线程运行，默认一个线程（需要基于python3）

另外会对每个样本自动构建一个同名目录，存放它相应的数据

看看过滤后数据量的变化，因为原来数据质量就不错，所以也没：

看看过滤后10个样本的GC变化：

欢迎关注我们的公众号～_～　　
我们是两个农转生信的小硕，打造生信星球，想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!