学习小组DAY7笔记--Peng

思维导图

正式笔记

1.7.2 Hiseq 2000测序仪

从荧光信号的产生到碱基序列的识别这一过程，主要包括图象校正（即空间校正）、cluster识别、荧光校正（即光学校正）、phasing/prephasing（即化学校正）、碱基识别、PF（Illumina默认的数据过滤算法Pass Filtering）、质量评估等7个步骤

利用了CCD相机(1)对每一个簇(cluster)进行识别，确定其坐标；(2)提取每个簇分别在A、G、C、T四个波长的信号强度值。

测序仪搭配了两个flowcell，简称双流动槽。比较经典的Hiseq2500一次能产出700-800Gb数据（此处Gb为测序碱基数，不同于字节数的Gb）。

关于数据转换，举个例子比较好理解：以人类基因组为例，包括30亿碱基对（bp），测序深度30x的话，就会有900亿碱基对（=1800亿字母）=90G测序量；900亿个碱基对/150（测序策略PE150）=6亿条reads(=60Mreads)；6亿条reads x 45（reads长度）= 2700亿字母；
每个字母=1字节，换算成计算机大小就是：2700亿字节/（1024 x1024 x1024）=192.7837G存储（非常大的数据量了）

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。