ATAC-seq 质控

1. 写在前面

2. replicates

  • 2 个及以上生物学重复
  • 对于无法做生物学重复的样本至少 2 技术重复

3. 总 reads 数

  • 单端 25 百万
  • 双端 50 百万
  • 去重、去线粒体

4. 比对率

  • > 95%,可以低至 80%

5. IDR 计算重复情况

6. 文库复杂度

7. peak 数量

  • The number of peaks within a replicated peak file should be >150,000, though values >100,000 may be acceptable.
  • The number of peaks within an IDR peak file should be >70,000, though values >50,000 may be acceptable.

8. nucleosome free region (NFR)

  • 目前没有找到教程,待补充

9. 插入片段长度统计(单核小体峰)

  • 标准:在 147bp 以上,147*2bp 以下处有峰
  • 首先从 bam 文件中抓取插入片段长度信息
cd align/
samtools view WT.last.bam|cut -f9>wt_insert_length.txt
  • 然后读入 R 画 hist 图即可
a=read.table("wt_insert_length.txt")
hist(abs(a[,1])))
  • 数据质量不佳,200bp 的峰不够显著

10. 计算 FRiP 值

  • 全称 Fraction of reads in peaks,即位于 peak 坐标范围内的 reads 占总 reads 的比例
  • 标准:FRiP >0.3,可以低至 0.2
  • 通过 shell 脚本计算
cd callpeaks/
ls *narrowPeak|while read id;
do
echo $id
bed=../bed/$(basename $id "_peaks.narrowPeak").bed
ls -lh $bed
# a中哪些在b中
ReadsinPeaks=$(bedtools intersect -a $bed -b $id|wc -l|awk '{print $1}')
totalReads=$(wc -l $bed|awk '{print $1}')
echo $ReadsinPeaks $totalReads
echo 'FRiP:' $(bc <<< "scale=2;100*$ReadsinPeaks/$totalReads")'%'
done
  • 输出
    • 3391770 25099448 FRiP: 13.51%
    • 7779551 30565190 FRiP: 25.45%
  • 视频中 Jimmy 老师认为应该使用去重和去线粒体之前的 bam 转出来的 bed 来计算 FRiP,这个有待进一步考证

11. TSS 富集程度

  • 在衡量背景噪音水平上比 FRiP 更关键
  • 标准:
  • 教程待补充

友情宣传

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。