2020-12-24 二代测序结果文件大小问题

问题是,二代下机数据的Raw Reads乘以测序长度后为什么不等于Raw Base?

Raw Reads简称为RR,Raw Base简称为RB。
图中
RR是34040437个,RB是10.21 *1000 *1000 *1000bp

RB=RR *测序长度

使用命令查看测序长度

cat filename | head -n 100
CAT前100行的结果

获得结果均为150bp

ATGCAAATGTTAACTCCAAATAAAAAACCAGATTCCAGCTCTAGTTTTAATAGTTCCAAAGGAGGATTAAAGAAAGATAAAAATTTAAAAAGAAAAAATTCTACTTTAGTTGCTGACAATGATAATGTAAATACTTATAAAAATTATATG

AAACATCGGGCTGAAATAGTGTGTCACGTTAAACGAATTAAGATACCGCTAGGCAGTGGGAATGTACTGTCGGTGTTTGGGGATAGAGCAAATCAATAATTAGGAATCGTATCATGTATCCAGGCCCAAAACTGCCTAAAGAAAGGCGAT

GAACGGAGGAAGAAGGTGCCATGATAGAGTTTGTAGAGGGAGATGAAACTTAGGGATTTTTCACTTAAGGATGAGGTAACGGTAATGTGAGAGAGAGAGAGACATATTTATACCCACCGGATTTAAAACGGAGTTAATGCGGAATTGTTA

则RR *测序长度=34040437 *150=5,106,065,550bp,但是RB长度是10,210,000,000bp,出现了不一致

为什么呢?

出现这种情况的主要原因是,本次测序数据是PE(pair end)测序,而双端测序结果中,两个方向测序结果的reads数相同,所以公司的交付文件中的RR的个数34040437,其实指的是单个方向测序结果的reads个数。故此时
RB=RR(方向一) *测序长度+RR(方向二) *测序长度
=34040437 *150+34040437 *150
=10,212,131,100

至此,与结果报告中RB为10.21G的结果相一致

扩展一下

二代测序的读长为什么是固定的?
答:reads长度是测序仪本身程序决定的,碱基读取就是荧光显微镜拍照,150bp的reads就意味着150张激光共聚焦显微镜照片,这是可以控制的,所以也会有PE100,PE150,PE250,而且这些只是试剂盒不同,都可以在一个测序平台上运行。

二代测序的读长为什么是固定的? - 星空Idealist的回答 - 知乎
https://www.zhihu.com/question/376120856/answer/1050564345

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容