Fastq文件格式解析

Fastq是测序数据下机格式,其中包含测序序列(reads)的序列信息及其对应的测序质量信息。
FASTQ格式文件中每个read由四行描述,如下:

@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG 
GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT 
+ 
@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF

其中第一行以“@”开头,随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为Illumina 测序标识符(选择性部分);第四行是对应序列的测序质量。
Illumina 测序标识符详细信息如下:

image.png

第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,Illumina测序平台的碱基质量值用Qphred表示,则有下列关系:
ASCII - 33 = Qphred = -10log10(e)
此公式可说明,质量值越大测序错误率(e)越低,准确性越高

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容