基本概念
我们一般说的测序数据,比方说 6G 的测序数据,这个G代表的是 Gbase,而非文件大小 GB(gigabyte)
Gbase 代表的是碱基数量,即测序文件(A,T,C,G)的个数,相邻两个单位换算为 1000
而我们所说的文件大小 GB(gigabyte)是计算基领域统计某个文件大小的计量单位,相邻两个单位换算为 1024
如何估算fastq文件的的碱基数
一般我们测序数据有两种情况,一种是双端数据(双端各有150bp),另外一种是单端数据(一端300bp)
那么对于单端数据,我们可以先统计具有reads的行数有多少行,那么每一个reads行有300个碱基,那么总碱基数为:
总碱基数(GB) = (总reads的行数 × 300) / 10的9次方
如果是双端数据:
总碱基数 = (总reads的行数 × 2 × 150) / 10的9次方
如果想看实际比对下来的总碱基数,记得乘上比对率:
单端:总碱基数(GB) = (总reads的行数 × 300 × 比对率) / 10的9次方
双端:总碱基数(GB) = (总reads的行数 × 2 × 150 × 比对率) / 10的9次方