基因组Survey(二代测序数据质控)

2021-06-26

一. 为什么要做基因组Survey?

Survey分析要做什么数据准备?
(1)QC方法介绍
(2)NT方法介绍

1.为什么要进行Survey分析?
2.Survey分析数据准备
3.Survey 数据质控软件
4.重点总结

1.为什么要进行Survey分析(目的)?
1.1 Survey方案
  • 通过质控、NT比对,获得高质量的clean data,为后续分析奠定良好基础;
  • 基因组Survey基于小片段文库的低深度测序数据(50X)左右;
  • 通过K-mer分析,有效的评估基因组大小、GC含量、杂合度以及重复序列的含量等信息;
  • 全面了解某一物种基因组特征的有效方法;
  • 为后续的全基因denove测序的组装策略的制定提供理论依据。
Survey.png
1.2 基因组复杂度预估
  • 普通基因组的定义?
    答:单倍体、纯合二倍体或者杂合度<0.5%,且重复序列含量<50%,GC含量为35%到65%之间的二倍体。
  • 复杂基因组的定义?
    答:杂合度>0.5%,重复序列含量>50%,多倍体,GC含量处于异常的范围(GC含量<35%或者GC含量>65%的二倍体)。
  • 二倍体复杂基因组进一步细分为
    微杂合基因组(0.5%<杂合率<=0.8%)
    高杂合基因组(杂合率>0.8%)
    高重复基因组(重复序列比例>50%)
  • 基因组大小:
    基因组越大,测序花钱越多
二、Survey分析数据准备?
2.1 Survey分析需要准备的数据?
二代.png
2.2 Survey测序数据质量值说明:

碱基的质量都是以ASCII值表示的,根据测序时采用的质量方案的不同,计算十进制的质量值的方法也有所区别,常见的计算方法如下所示:
展示方式:Phred+33和Phred+64,这里的33和64就是指ASCII值转换为得分该减去的数值
(1)Phred+64:质量字符的ASCII值 -64
(2)Phred+33: 质量字符的ASCII值 -33
Illumina 测序碱基质量值的范围是[0,40],即ASCII值表示为[B,h] 戒 [#,I]。
Illumina 测序错误率不测序质量值简明对应关系。具体地,如果测序错误率用 E 表示,Illumina 碱基质量值用 Q 表示,则有如下关系 : Q = -10 log10(E)。

三、 Survey数据质控软件?
3.1 质控流程:
流程.png

各提出10000对比对到NT库,如果都比对到同源物种,说明无污染,如果比对到细菌真菌,可能数据有污染。

3.2 质控软件-trimmomatic
#wget下载二进制文件
wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.39.zip
#解压缩Trimmomatic-0.39.zip文件
unzip Trimmomatic-0.39.zip
#Trimmomatic 质控用法
#根据单端测序和双端测序两种模式,Trimmomatic软件也有两种质控用法
#1. SE 模式
#SE模式下,只有一个输入文件和一个质控后的输出文件,运行命令如下:
java -jar <path to trimmomatic jar> SE [-threads <threads>] [-phred33 | -phred64] [-trimlog <logFile>] <input> <output> <step 1> ...表示每一步的质控参数
#2. PE模式
java -jar <path to trimmomatic.jar> PE [-threads <threads] [-phred33 | -phred64] [-trimlog <logFile>] <input 1> <input 2> <paired output 1> <unpaired output 1> <paired output 2> <unpaired output 2> <step 1>...
#实操
fq1=XX1_H3J2NDMXX_L1_1.clean.fq.gz
fq2=XX1_H3J2NDMXX_L1_2.clean.fq.gz
java -jar Trimmomatic-0.39/trimmomatic-0.39.jar \
PE \
-threads 16 \
-validatePairs $fq1 $fq2 \
#ILLUMINACLIP:BGI-SEQ-PE.fa:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15  AVGQUAL:20 MINLEN:36 \
ILLUMINACLIP:Trimmomatic-0.39/adapters/TruSeq3-PE.fa:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 AVGQUAL:20 MINLEN:36 \
-baseout ./pop_clean.fastq.gz
#输出结果
pop_clean_1P.fastq.gz pop_clean_1U.fastq.gz pop_clean_2P.fastq.gz pop_clean_2U.fastq.gz
3.3 Trimmomatic的相关参数
Trimmomatic 过滤数据的步骤不命令行中过滤参数的顺序有关,通常的过滤步骤如下:
0.threads:设置线程数目,多线程运行
1.ILLUMINACLIP: 过滤 reads 中的 Illumina 测序接头和引物序列
2.SLIDINGWINDOW: 从 reads 的 5' 端开始,迚行滑窗质量过滤,切掉碱基质量平均值低于阈值的滑窗。
3.MAXINFO: 一个自动调整的过滤选项,在保证 reads 长度的情况下尽量降低测序错误率,最大化 reads 的使用价值。
4.LEADING: 从 reads 的开头切除质量值低于阈值的碱基。
5.TRAILING: 从 reads 的末尾开始切除质量值低于阈值的碱基。
6.CROP: 从 reads 的末尾切掉部分碱基使得 reads 达到指定长度。
7.HEADCROP: 从 reads 的开头切掉指定数量的碱基。
8.MINLEN: 如果经过剪切后 reads 的长度低于阈值则丢弃这条 reads。
9.AVGQUAL: 如果 reads 的平均碱基质量值低于阈值则丢弃这条 reads。
10.TOPHRED33: 将 reads 的碱基质量值体系转为 phred-33。
11.TOPHRED64: 将 reads 的碱基质量值体系转为 phred-64。
最新的版本并不用选择10或者11,它自己会识别格式,自动选择
3.4 质控报告生成软件fastqc下载、安装与使用
# fastqc下载 版本FastQC v0.11.9
wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip
unzip fastqc_v0.11.9.zip #解压
cd FastQC
chmod 755 ./fastqc
#调用方式
./fastqc -o outdir -t threads fastq1 fastq2 
  • QC报告展示


    1.png

    2.png

    3.png

    4.png

    5.png

    6.png

    7.png

    8.png
3.5 NT数据库比对

1.NT库
Partially non-redundant nucleotide from all traditional divisions of GenBank, EMBL, and DDBJ excluding GSS,STS, PAT, EST, HTG, and WGS.


image.png

2.NT比对
软件:BLAST
The Basic Local Alignment Search Tool (BLAST) is the most widely used sequence similarity tool. There are versions of BLAST that compare protein queries to protein databases, nucleotide queries to nucleotide databases, as well as versions that translate nucleotide queries or databases in all six frames and compare to protein databases or queries.

blastn \
-query reads_2.fa \
-db /local_data1/public_data/database/genome_DB/nt/20190417_all/nt \
-out reads_2.csv \
-outfmt "10 evalue length qseqid qlen qstart qend sacc slen sstart send pident nident sstrand qcovs qseq sseq sgi stitle" \
-num_threads 4 -evalue 1e-5 -max_target_seqs 1

3.NT比对结果文件统计


image.png
  • 例子:NT比对,得到对应的NT序列信息,分类动物,植物,真菌,细菌等
  • 一般查看前20行比例最大的
  • 也可能出现比对丌上NT库,那就是NT库并没收录该物种信息
四、总结
4.1 为什么要做qc?

因为实验过程丌可知,物种特性难量化,数据通过qc,可以做到量化展示数据,从数据分析相关信
息,同时为后续Kmer分析做准备,获取一个准确的基因组预估情况。

4.2 qc结果和NT结果需要重视哪些部分?

污染问题最重要,数据报告上面如果出现测序质量低,测序效果丌好,往往从展示图可以明确看到,
但是污染的问题有可能是共生菌,细胞器,实验污染,样本污染,这些信息丌仅仅是从NT比对和gc峰
了解,更要结合物种特性来展开连锁分析。比如一些带病昆虫会有共生菌,一些哺乳动物也有相关细
菌。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,869评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,716评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,223评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,047评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,089评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,839评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,516评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,410评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,920评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,052评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,179评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,868评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,522评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,070评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,186评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,487评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,162评论 2 356

推荐阅读更多精彩内容