基因组重测序分析全过程

已知达松维尔拟诺卡氏菌亚种是会导致人类放线菌瘤的环境生物,该样本是来自Keddieii血根杆菌DSM 10542的通用样品,旨通过基因组重测序探索其和参考基因组有何不同,找出基因组变异信息。

1.需要的软件

• 软件名:Aspera 版本号:4.0.2.38
• 软件名:sratoolkit 版本号:2.11.1
• 软件名:FastQC 版本号:0.11.7
• 软件名:Trimmomatic版本号:0.38
• 软件名:bwa 版本号:0.7.17-r1188
• 软件名:samtools 版本号:1.7
• 软件名:Annovar 版本:$Date: 2019-10-24 00:05:27 -0400 (Thu, 24 Oct 2019)
• 软件名:bcftools 版本:1.7

2.数据下载

2.1下载sra数据

1.在NCBI官网的搜索框输入SRR022534,可以看到该菌的目前研究以及进展,在最下面Runs点击SRR022534,在跳转界面点击Data access,会看到一个网址,复制网址;
2.服务器建re_seq文件夹,wget下载亚种基因组文件。

wget https://sra-pub-runodp.s3.amazonaws.com/sra/SRR022534/SRR022534

或者prefetch下载

prefetch SRR022534

也可以选择ascp下载,不过如果基因组文件不是特别大不推荐这种方式,比较麻烦,需要到EBI-ENA数据库赋值ftp地址。

2.2.下载参考基因组序列和基因组注释文件

网址:ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/001/877/055/GCA_001877055.1_ASM187705v1/GCA_001877055.1_ASM187705v1_genomic.fna.gz
1.进入NCBI官网,输入GCA_001877055,在界面右边点击FTP directory for GenBank assembly,在下一个界面复制参考基因组.fna.gz文件和基因组注释文件.gff.gz;
2.wget下载。

wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/001/877/055/GCA_001877055.1_ASM187705v1/GCA_001877055.1_ASM187705v1_genomic.fna.gz
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/001/877/055/GCA_001877055.1_ASM187705v1/GCA_001877055.1_ASM187705v1_genomic.gff.gz

3.主要分析步骤和结果

3.1系列与参考基因组的比对

3.1.1数据文件的格式转换

在NCBI数据库检索序列号SRR033534查看experiment得知测试数据类型为454的单末端测序。

fastq-dump SRR022534.sra

3.1.2质量评估

1.fastqc质量评估,文件最好用绝对路径;

touch fastp.sh
vim fastp.sh
#!/bin/bash
for i in 1 2 3 4
do
fastp -i SRR137492${i}.fastq.gz -o SRR137492${i}.fq.gz
done
#Esc : wq! 保存并退出
chmod 777 fastp.sh
./fastp.sh

2.本地查看fastqc report,由结果可知,测序数据质量不是特别高,Per base sequence quality中有很多下四分位小于10或中位数小于25,所以下一步要先数据过滤,去除低质量序列。

3.1.3测序数据过滤

Trimmomatic参数说明

PE:双端测序
-phread33:设置碱基的质量格式
ILLUMINACLIP:
TruSeq3-PE.fa: <fastaWithAdaptersEtc>是fasta格式的接头序列文件路径
2: <seed mismatches>是将接头序列的一段(不超过16bp)作为seed,与reads进行比对,能够容忍的最大错配(mismatch)数,这里是最多2个错配
30: <palindrome clip threshold>是 a-R1, a-R2的比对分值阈值,达到阈值,才进行切除,这里设置阈值为30(大约比对50bp碱基)
10:<simple clip threshold>是任意(接头)序列与read比对最低分阈值,大于这个阈值,才进行切除,这里设置阈值为10(大约比对17bp碱基)
LIDINGWINDOW:5:20:设置滑动窗口阈值,以为5bp为窗口,这5bp碱基的平均质量值低于20,要进行切除
:LEADING:20:设置从reads起始开始,去除质量低于阈值或为’N’的碱基,直到达到阈值不再去除,这里设置阈值为20
TRAILING:20:设置从reads末尾开始,去除质量低于阈值的碱基或为’N’的碱基直到达到阈值不再去除,这里设置阈值为3,这种方法是去除特定的illumina平台低质量区域(由于illumina会将低质量碱基标记为2) 
MINLEN:75 设置read切除后的最短长度,这里设置长度至少为36bp,长度小于36bp的reads被去除
fastqc /disk1/202031107010114/re_seq/trim_out/SRR022534.fastq.gz

3.1.4fastqc重新质量评估

fastqc /disk1/202031107010114/re_seq/trim_out/SRR022534.fastq.gz

3.1.5建立参考基因组索引

gunzip disk1/202031107010114/re_seq/GCA_001877055.1_ASM187705v1_genomic.fna.gz
bwa index disk1/202031107010114/re_seq/GCA_001877055.1_ASM187705v1_genomic.fna

3.1.6测序数据比对到参考基因组得到sam文件

bwa mem disk1/202031107010114/re_seq/GCA_001877055.1_ASM187705v1_genomic.fna disk1/202031107010114/re_seq/trim_out/SRR022534_out.fastq.gz >bwa_mem_SRR022534.sam

3.1.7sam文件转bam文件

samtools faidx disk1/202031107010114/re_seq/GCA_001877055.1_ASM187705v1_genomic.fna
samtools view -bhS -t GCA_001877055.1_ASM187705v1_genomic.fna.fai -o bwa_mem_SRR022534.bam bwa_mem_SRR022534.sam

3.1.8为bam文件排序

samtools sort bwa_mem_SRR022534.bam -o bwa_mem_SRR022534.sorted.bam

3.1.9为bam文件建立索引 显示基因组比对情况

samtools index bwa_mem_SRR022534.sorted.bam
samtools index bwa_mem_SRR022534.sorted.bam

3.1.10测试每个基因组每个位点的测试深度并统计比对结果

samtools depth bwa_mem_SRR022534.sorted.bam >>depth.txt
samtools flagstat bwa_mem_SRR022534.sorted.bam

3.2变异点检测

3.2.1去除pcr重复

samtools rmdup bwa_mem_SRR022534.sorted.bam bwa_mem_SRR022534_nopcr.bam

3.2.2生成bcf文件

samtools mpileup -gf GCA_001877055.1_ASM187705v1_genomic.fna bwa_mem_SRR022534_nopcr.bam >bwa_mem_SRR022534.bcf

3.2.3基因变异检测和筛选

bcftools call -vm bwa_mem_SRR022534.bcf -o bwa_mem_SRR022534.variants.bcf
bcftools view -v snps,indels bwa_mem_SRR022534.variants.bcf > bwa_mem_SRR022534.snps.vcf

3.3变异位点注释

3.3.1生成annovar输入文件

convert2annovar.pl -format vcf4 bwa_mem_SRR022534.snps.vcf > bwa_mem_SRR022534.snps.avinput

3.3.2自定义注释数据框

gunzip disk1/202031107010114/re_seq/GCA_001877055.1_ASM187705v1_genomic.gff.gz
wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/gff3ToGenePred
chmod 777 gff3ToGenePred
./gff3ToGenePred -useName GCA_001877055.1_ASM187705v1_genomic.gff 7055-genome_refGene.txt
cut -f 12 7055-genome_refGene.txt >column1.txt
cut -f 2-15 7055-genome_refGene.txt >column_else.txt
paste column1.txt column_else.txt >7055-genome_new_refGene.txt
retrieve_seq_from_fasta.pl -format refGene -seqfile GCA_001877055.1_ASM187705v1_genomic.fna -outfile 7055-genome_new_refGeneMrna.fa 7055-genome_
cp 7055-genome_new_refGene* ~/Biosofts/annovar/humandb/

3.3.3注释变异基因位点

annotate_variation.pl --geneanno --dbtype refGene --buildver 7055-genome_new  bwa_mem_SRR022534.snps.avinput ~/Biosofts/annovar/humandb/

4.批量处理的脚本

因为我所分析的sra文件只有一个,无法更好地说明批量处理过程,就找了一组RNA-Seq数据,二者前面的分析流程基本一致。数据来自研究:抗体富集前后培养物中伯氏疏螺旋体基因表达中富含aBa的体外培养Bb代表SRR22149531和体外培养的Bb代表SRR22149536。

4.1prefetch批量下载sra文件

touch prefetch.sh
vim prefetch.sh
#!/bin/bash
for i in 1 6
do
prefetch SRR2214953${i}
done
#Esc : wq! 保存并退出
chmod 777 prefetch.sh
./prefetch.sh

4.2fastq-dump批量从sra文件提取fastq文件

touch fastq_dump.sh
vim fastq_dump.sh
#!/bin/bash
for i in SRR*
do
echo ${i}#打印输出文件名
fastq-dump --gzip ${i}/${i}.sra
#可根据数据需要选择--spilt-files/--spilt-3/--spilt-spot
done
#Esc : wq! 保存并退出
chmod 777 fastq_dump.sh
./fastq_dump.sh

4.3fastqc批量质控

touch fastqc.sh
vim fastqc.sh
#!/bin/bash
for i in 1 6
do
fastqc SRR2214953${i}
done
#Esc : wq! 保存并退出
chmod 777 fastqc.sh

4.4bwa批量比对并生成排好序的bam文件

touch bwa_samtools.sh
vim bwa_samtools.sh
#!/bin/bash
for i in 1 6;do
{
bwa index GCA_000181575.2_ASM18157v2_genomic.fna;
bwa mem GCA_000181575.2_ASM18157v2_genomic.fna SRR2214953${i}.fastq.gz >bwa_mem_SRR2214953${i}.sam;
samtools faidx GCA_000181575.2_ASM18157v2_genomic.fna;
samtools view -bhS -t GCA_000181575.2_ASM18157v2_genomic.fna.fai -o bwa_mem_SRR2214953${i}.bam bwa_mem_SRR2214953${i}.sam;
samtools sort bwa_mem_SRR2214953${i}.bam -o bwa_mem_SRR2214953${i}.sorted.bam;}
done
#Esc : wq! 保存并退出
chmod 777 bwa_samtools.sh
./bwa_samtools.sh
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352