本文回答以下两个问题:
1. 根据扫描得到的光点图,如何判断一个位置上的碱基是什么
2. 评估1中判断的可靠性
插图全部来自【陈巍学基因】视频2:HiSeq工作原理,本文是对该视频的学习笔记
1. 四种碱基的判读规则
- C > 0.6 即 Ia/Ib > 1.5,该位置的碱基是“好碱基”
- Ia :光点中占比最高的荧光素含量
- Ib :光点中占比第二的荧光素含量
- Pass Filter:前25个碱基中,坏碱基的个数小于等于1,则该read的Pass Filter=pass,否则不pass
- 对data进行Pass Filter的目的:去掉多克隆cluster
- 多克隆cluster中光点上,占比最高的荧光素含量与占比第二的荧光素含量相近,判读误差大,无法确定到底是哪种碱基
- PF rate = Pass Filter的reads数目/总的测到的reads数目
- 上样密度过高,PF rate 会下降(多克隆cluster会增多)
2. 评估碱基判读
Quality Score
-
评价一个位置上碱基判读可靠性的指标,评价碱基误判的可能性
-
Q30比例 = 达到或超过Q30的数据 / 总的Pass Filter的数据