上传数据时发现一个有趣的问题,自己不知道数据来自于哪个illumina的哪个测序平台,所以整理下如何根据FASTQ的标识行分析测序数据的来源
FASTQ格式文件中每个read由四行描述,如下:
@HWI-ST1327:30:C18RRACXX:8:1101:10939:1992 1:N:0:ACCAAT
AGGACCCGAAAGATGGTGATGGAATTCTCGGGTGCCAAGGAACTCCAGTC
+
DDFFFHHHHHJIIIJJHIHIJJJJIJIIJJJJDGHIJJJJIJJJJJJJIJ
其中illumina测序标识符和测序仪器线索相关的内容为就是第一行中HWI-ST1327
部分,用于说明来自于什么测序平台。
根据10X公司的脚本,illumina_instrument.py,整理出如下内容
测序仪器平台 | 编号 |
---|---|
MiSeq | HWI-M |
Genome Analyzer IIx | HWUSI |
HiSeq 1500 | HWI-C 或 C |
Hiseq 2500 | HWI-D 或 D |
Hiseq 3000 | J |
HiSeq 3000 或 HiSeq 4000 | K |
HiSeq X | E |
NextSeq | NB或NS |
MiniSeq | MN |
举几个例子:
"@E00591:243:HLK2YCCXY:3:1101:4411:1608 1:N:0:AGCAGGAA" 包含E,也就是HiSeq X平台,
"@ST-E00314:132:HLCJTCCXX:6:2206:31213:47966 1:N:0" 虽然开头是ST,但是后续跟着E,那么还是HiSeq X。
大部分情况都能解决问题,但是如果你遇到了"@HISEQ:739:CCGERANXX:7:1101:9617:1309 1:N:0:NATCCGTC" 这种编号的话,那么就得求助这里面的"CCGERANXX"这9个字符组成的FCID
还是根据illumina_instrument.py脚本里的内容,查询以C开头,ANXX结尾的是"HiSeq 1500", "HiSeq 2000", "HiSeq 2500",我们将范围缩减到了3个平台。同时我们还可以查询每个测序仪器的测序读长范围。
如果是DSXX结果,则是NovaSeq,参考自http://enseqlopedia.com/2017/12/illumina-flowcell-names-similar-occasionally-rude/ 以及 https://www.biostars.org/p/198143/
根据我整理的表格,至少能够区分250bp , 以及小于100bp的FASTQ数据来源。
测序仪型号 | 最长读长 | 数据量 |
---|---|---|
HiSeq X | 2 x 150 bp | 1.6–1.8 Tb |
NovaSeq 6000 | 2 x 150 bp | 134–6000 Gb |
HiSeq 4000 | 2 x 150 bp | 125–1500 Gb |
HiSeq 3000(过时,不用) | 2 x 150 bp | |
HiSeq 2500 | 2 x 250bp | 9 –1000Gb |
HiSeq 2000 | 2 X 100 bp | 36 - 200Gb |
NextSeq | 2x 150bp | 20–120 Gb |
考虑HiSeq 1500 基本不用,最后就只有2个选项,最后比较下每个读段长度,就能分析出具体的平台了