Fastq是测序数据下机格式,其中包含测序序列(reads)的序列信息及其对应的测序质量信息。
FASTQ格式文件中每个read由四行描述,如下:
@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG
GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT
+
@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF
其中第一行以“@”开头,随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为Illumina 测序标识符(选择性部分);第四行是对应序列的测序质量。
Illumina 测序标识符详细信息如下:
第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,Illumina测序平台的碱基质量值用Qphred表示,则有下列关系:
ASCII - 33 = Qphred = -10log10(e)
此公式可说明,质量值越大测序错误率(e)越低,准确性越高