测序数据基本信息

一、测序数据

1.Raw data(原始数据)

  • 公司一次测序产生的全部原始数据。理论上,它们应该是没有经过任何过滤的,无论好坏。
image.png

2. PF data(PF数据)

在测序过程中,Illumina内置软件根据每个测序片段(read,通常每个片段长100个碱基)前25个碱基的质量决定该read是保留还是抛弃。如果没有达到质控标准,则该read的全部碱基都被抛弃;达到标准、保留下来的数据叫做PF data。 PF代表pass filtering。

3. Q30 data

Illumina内置软件根据统一设定的标准来评判碱基识别结果的可靠性,为每个碱基给予一个质量评分(QV)。PF data里质量评分>=30分的数据称为Q30 data。 Q30的意思是该碱基的可靠性为99.9%。Q30数据通常占PF数据的80%左右。视样本质量、操作水平、试剂质量、仪器状态的不同,这一比例有很大波动。

4. Clean data

  • 某些实验室根据其自身的判断标准,在PF data的基础上,进一步删除质量不好的reads后得到的数据。常见的删除动作有:去接头、去N含量高的reads、去质量评分低的reads、去掉每个read的最后几个碱基,等等。

  • Clean data是国内叫法;PF data是来自Illumina的概念,是广为接受的国际通行标准。

  • PF算法实质上是选取每个测序片段(read)前25个碱基的质量来代表整条片段的质量,从而决定该片段的去留。Illumina之所以这样做,而不是逐个检查整条片段所有碱基的质量,一方面是为了节省电脑资源,不致于花费太多时间进行运算,拖累测序进程,另一方面也是在大量测序数据的统计结果基础上选择的平衡点,只要前25个碱基是正常的,后75个碱基出问题的概率比较小。

  • 一次测序实验完成,测序仪上展示的数据量和%Q30都是以PF数据为基础的。只要对数据质量有足够信心,就不会对PF数据再进行加工,可以直接把PF数据交给客户,进行下游的生物信息学分析。一般公司会提供clean data和后续的基础分析结果。

二、测序数据信息的统计

image.png

1. Clean reads (millions)

  • 计算Clean reads数
   vim readfq
  1 #reads number 
  2 #!/bin/bash
  3 
  4 ls /public/home/thu/3.RNA_seq/3.sra_to_fastq/*.fastq.gz >fq.list
  5 
  6 for i in $(cat fq.list)
  7 do 
  8   i=`basename $i`
  9   printf $i "\t" >>fq.reads_num
 10   readfq $i >> fq.reads_num    #readfq函数
 11 done
  • 结果-得到reads和碱基数
ZT6_RNASeq_rep1.sra_1.fastqNum reads:36189024   Num Bases: 5168633934
ZT6_RNASeq_rep1.sra_2.fastqNum reads:36189024   Num Bases: 5169091324
ZT6_RNASeq_rep2.sra_1.fastqNum reads:25599326   Num Bases: 3562568383
ZT6_RNASeq_rep2.sra_2.fastqNum reads:25599326   Num Bases: 3563756693
control_RNASeq_rep1_1.fastq.gzNum reads:24119971    Num Bases: 3617995650
control_RNASeq_rep1_2.fastq.gzNum reads:24119971    Num Bases: 3617995650
control_RNASeq_rep2_1.fastq.gzNum reads:24041041    Num Bases: 3606156150
control_RNASeq_rep2_2.fastq.gzNum reads:24041041    Num Bases: 3606156150

2. Total mapping rate

  • samtools flagstat 函数输出mapping rate
ls  *sorted.bam  | while read id ;do (samtools flagstat $id > $(basename $id ".sorted.bam").stat);done
  • 结果分析
  1 40621782 + 0 in total (QC-passed reads + QC-failed reads)  #通过质控的总reads数
  2 0 + 0 secondary
  3 0 + 0 supplementary
  4 0 + 0 duplicates
  5 40621782 + 0 mapped (100.00% : N/A)  #对比到基因组上的 reads数
  6 40621782 + 0 paired in sequencing  # paired reads 数目
  7 20445256 + 0 read1   # read1 的数量
  8 20176526 + 0 read2   # read2 的数量
  9 37510016 + 0 properly paired (92.34% : N/A) #完美匹配的reads数:比对到同一条参考序列,并且两条reads之间的距离符合设置的阈值
 10 37883263 + 0 with itself and mate mapped   #paired reads中两条都比对到参考序列上的reads数
 11 2738519 + 0 singletons (6.74% : N/A)  #单独一条匹配到参考序列上的reads数,和上一个相加,则是总的匹配上的reads数。
 12 10639 + 0 with mate mapped to a different chr #paired reads中两条分别比对到两条不同的染色体的reads数
 13 10639 + 0 with mate mapped to a different chr (mapQ>=5) #paired reads中两条分别比对到不同染色体的且比对质量值大于5的数量
  • 输出结果
for id in *.stat ;do echo -e $id >>test `sed -n "5p" $id` >> test ;done  #整理结果输出第五行
cat test
#得到文件
control_RNASeq_rep1.stat 28100200 + 0 mapped (100.00% : N/A)
control_RNASeq_rep2.stat 28246701 + 0 mapped (100.00% : N/A)
ZT6_RNASeq_rep1.stat 40621782 + 0 mapped (100.00% : N/A)
ZT6_RNASeq_rep2.stat 32144781 + 0 mapped (100.00% : N/A)

参考

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352