9:15-9:40
在生信基础知识100讲里看了关于格式的文章。和补充了一些关于生物的知识(下面是推文内容)
FastQ格式是序列格式中常见的一种,它存储了生物序列以及相应的质量评价,其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。
在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作为起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。
SAM的全称是sequence alignment/map format。而BAM就是SAM的二进制文件(B源自binary)。SAM格式是用来来支持高通量测序数据分析:
快速查找与坐标重叠的比对。例如,选择与染色体2上的坐标323,567,334重叠的比对。
根据read的属性进行选择和过滤。例如,我们希望能够快速选择能过比对到反向链上的read。
有效地存储数据。例如,从SAM格式转化成BAM格式,单个压缩文件包含所有样本的数据,每个样本都以某种方式标记。
bed文件是ucsc 的genome browser的一个格式,主要构成是一个可变方式的数据线,用来描述注释的数据。BED线有3个要求的字段(基本列)和9个额外的字段(附加列)。 每条线的字段数目必须是任意单条数据的在注释上一致。可选字段的序试结合低数字的字段必须流行如果高位字段被使用。
Blast,全称Basic Local Alignment Search Tool,即"基于局部比对算法的搜索工具,由Altschul等人于1990年发布。 Blast 能够实现比较两段核酸或者蛋白序列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列并对区域进行打分以确定同源性的高低。Blast的运行方式是先用目标序列建数据库(这种数据库称为 里面的每一条序列称为subject),然后用待查的序列 (称为 query)在 database 中搜索,每一条 query 与database 中的每一条 要进行双 序列比对,从而得出全部比对结果。Blast 实现了五种可能的序列比对方式:
10:00-11:50
看了健明老师给的视频r语言基础视频课程,重点看了热图和散点图
https://mp.weixin.qq.com/s/Gr_0H4-GaTYkgUkbNHcMcg?
13:00-17:00在因为之前是傻瓜式画图,现在回过头理解deg和火上图,今天是理解代码