fastq
fastq查看:zcat filename.fq.gz | head -n 8 #显示前8行文件内容(前8行代表2条序列)
格式说明:fastq文件每4行代表一条序列
第一行:记录序列测序时所用仪器以及在测序通道中坐标信息,以@开头;
第二行:测序的序列信息,以ATCGN表示,由于荧光信号干扰无法判断是什么碱基时就用N表示;
第三行:通常一个+;
第四行:与第二行碱基信息一一对应,存储测序碱基的质量值。
sam
sam文件全称是the sequencing alignment format,是alignment步骤BWA/STAR/HISAT2等软件对结果的标准输出文件,用于存储reads比对到参考基因组的比对结果。是一个纯文本格式,文件一般较大。为了节省硬盘存储,一般使用其高效压缩的二进制格式bam文件。
利用samtools view的-b参数就能把sam文件转换成bam文件。
1)sam文件查看方式
在linux终端直接用less即可进行查看;
sam文件中第二列flag信息很重要,利用samtools flagstat工具可以查看bam文件中比对的flag信息,并输出比对的统计结果
samtools flagstat *.bam
flag一共有12个标签
bam
2)bam文件查看方式
需要借助samtools view工具进行查看
samtools view filename.bam | less
NGS分析中大多数文件都是由header和record两部分组成,加上-h参数后可以将header显示出来,默认是不显示的。
header内容:每一行就是一条read比对上参考基因组的信息,总共12列,用tab键分隔。
1.read名称;
2.比对信息位flag值;
3.参考序列染色体编号;
4.5’端起始位置;
5.MAPQ:mapping quality,描述比对的质量,数字越大,特异性越高;
6.CIGAR字符串,记录插入、删除、错配等信息;
7.配对read所比对到的染色体,仅双端测序的数据才有;
8.配对read所比对到的位置,仅双端测序的数据才有;
9.插入片段的长度,仅双端测序的数据才有;
10.read序列;
11.read质量值;
12.12列以后的信息都是metadata