学习小组DAY7笔记--Peng

思维导图

  • 测序魔鬼集中营


    1.7.1 生信学习【测序类型大杂烩】DAY7.png

正式笔记

1)几代测序技术和illumina原理见思维导图

2)数据产生

1.7.2 Hiseq 2000测序仪
workflow:

从荧光信号的产生到碱基序列的识别这一过程,主要包括图象校正(即空间校正)、cluster识别、荧光校正(即光学校正)、phasing/prephasing(即化学校正)、碱基识别、PF(Illumina默认的数据过滤算法Pass Filtering)、质量评估等7个步骤

照相机的识别:

利用了CCD相机(1)对每一个簇(cluster)进行识别,确定其坐标;(2)提取每个簇分别在A、G、C、T四个波长的信号强度值。

  • 拍照过程相当耗时,一次循环所产生的信号需要40分钟左右才能拍照收集完毕。使用相机的扫描功能会更快一些。
数据量产出:

测序仪搭配了两个flowcell,简称双流动槽。比较经典的Hiseq2500一次能产出700-800Gb数据(此处Gb为测序碱基数,不同于字节数的Gb)。

  • 关于数据转换,举个例子比较好理解:以人类基因组为例,包括30亿碱基对(bp),测序深度30x的话,就会有900亿碱基对(=1800亿字母)=90G测序量;900亿个碱基对/150(测序策略PE150)=6亿条reads(=60Mreads);6亿条reads x 45(reads长度)= 2700亿 字母;
    每个字母=1字节,换算成计算机大小就是:2700亿字节/(1024 x1024 x1024)=192.7837G存储(非常大的数据量了)

给未来的问题

  1. 为什么测序中读取index 就能提高效率知道其来自何处。
  2. 接头的设计和连接原理。
  3. 测序技术原理及常用数据格式简介有哪些?
  4. 如何进行数据分析?

参考:
生信公众号 生信星球 教程
【陈巍学基因】视频1:Illumina测序化学原理
《测序的世界》 刘小泽 的简书

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容