1. 写在前面
2. replicates
- 2 个及以上生物学重复
- 对于无法做生物学重复的样本至少 2 技术重复
3. 总 reads 数
- 单端 25 百万
- 双端 50 百万
- 去重、去线粒体
4. 比对率
5. IDR 计算重复情况
6. 文库复杂度
7. peak 数量
- The number of peaks within a replicated peak file should be >150,000, though values >100,000 may be acceptable.
- The number of peaks within an IDR peak file should be >70,000, though values >50,000 may be acceptable.
8. nucleosome free region (NFR)
9. 插入片段长度统计(单核小体峰)
- 标准:在 147bp 以上,147*2bp 以下处有峰
- 首先从 bam 文件中抓取插入片段长度信息
cd align/
samtools view WT.last.bam|cut -f9>wt_insert_length.txt
a=read.table("wt_insert_length.txt")
hist(abs(a[,1])))
10. 计算 FRiP 值
- 全称 Fraction of reads in peaks,即位于 peak 坐标范围内的 reads 占总 reads 的比例
- 标准:FRiP >0.3,可以低至 0.2
- 通过 shell 脚本计算
cd callpeaks/
ls *narrowPeak|while read id;
do
echo $id
bed=../bed/$(basename $id "_peaks.narrowPeak").bed
ls -lh $bed
# a中哪些在b中
ReadsinPeaks=$(bedtools intersect -a $bed -b $id|wc -l|awk '{print $1}')
totalReads=$(wc -l $bed|awk '{print $1}')
echo $ReadsinPeaks $totalReads
echo 'FRiP:' $(bc <<< "scale=2;100*$ReadsinPeaks/$totalReads")'%'
done
- 输出
- 3391770 25099448 FRiP: 13.51%
- 7779551 30565190 FRiP: 25.45%
- 视频中 Jimmy 老师认为应该使用去重和去线粒体之前的 bam 转出来的 bed 来计算 FRiP,这个有待进一步考证
11. TSS 富集程度
- 在衡量背景噪音水平上比 FRiP 更关键
- 标准:
- 教程待补充
友情宣传