大多数研究者所在的实验室没有条件进行基因测序的,有很多研究所会有测序仪,但是基本上是空置的。大部分研究者是让测序公司代理测序的。公司是以盈利为目的的,所以数据会出现各种各样的问题。
所以要做到以下几点:
- 对公司的质量报告持怀疑的态度;
- 自己建立一套质量评估体系;
- 委托第三方进行评估;
抓质量
对数据进行 fastqc 分析,对测序数据有基本的了解。在脑海里要设定以下条件:
- 每一个核苷酸的质量值;
- 序列中是否含有接头序列,扩增引物序列等;
- 测序重复率的过低(特别是RNA测序);
不同类型的数据分析对数据量的要求不一样,应该根据分析需求判断数据是否能用于后续分析。
此部分的分析软件:
比对过程抓质量
很多生物信息分析员看到公司出示质量报告符合要求,就认为这个数据后续分析应该是没问题,但是质量控制是贯穿数据分析整个过程的。如何从分析的结果中细心分析数据的质量呢?
-
序列比对统计,对不正常数据要有敏感性(total mapped read, corcodant mappping, paired mapped reads);
注意:如何提高对数据的敏感性?唯一的方法是多分析数据,多看看已经发表的数据,多去翻查以下ENCODE,ROADMAP PROJECT的数据。
通过可视化判断数据的问题,把比对数据导入到IGV进行数据比对质量进行分析。
-
直接查看数据比对结果,选中一些区域进行检查;
samtools可以用于查看数据比对结果。
samtools view -i XX.bam | less -S Picard中Markduplicates对比对结果中的重复率进行计算。通常重复率过高,表明这个数据实验过程出现问题。
后续分析结果抓质量
不同的数据分析,对这部分的分析不一样。
- RNAseq看基因的表达量分布图;
- CHIPseq/BSseq看peak的数量和meta gene plot;
- capture DNAseq看capture的效率;
- WGS看平均测序深度;
这些方法写得比较简单,仅供参考。