2022-11-12--期末.1

此次实验操作由于参考基因组下载出问题,实验中止,正确操作请参考下一篇。

一、下载数据

1、下载SAR数据

进入NCBI
whole genome sequencing - BioProject - NCBI (nih.gov)

图片.png

选择[Escherichia coli]

点击SRA Experiments后的8

随便挑选一条

点击第一个*All runs*

图片.png

1.

图片.png

2.点击下面表格中的SRR号

234

图片.png

图片.png

233
切换到‘Data access’界面,就找到数据链接了

图片.png

复制链接

用wget下载

wget https://sra-pub-run-odp.s3.amazonaws.com/sra/DRR398233/DRR398233

下载


图片.png

2.下载参考基因

图片.png

可以在STRAIN找到它的菌株种型,然后复制名称,进入NCBI中搜索


图片.png

如图,第一个结果为最保险的参考基因,点击进入


图片.png

图片.png

点击最下面的CP042583.1
图片.png

点击FASTA
图片.png

下载文件

为参考基因组建立索引

bwa index sequence.fasta -p 398200_index

图片.png

二、bwa比对

bwa mem 398200_index  DRR398233 DRR398234 >test_bwa_398200.sam
图片.png

less test_bwa_398200.sam

图片.png

出错,因为需要比对的文件格式错误,必须需要FASTQ文件格式

 mv DRR398234 DRR398234.sra

图片.png
fastq-dump
fastq-dump DRR398234.sra
图片.png

将文件格式从sar转为fastq


图片.png
ll #查看文件夹内容

图片.png

再次比对

bwa index sequence.fasta -p 398200_index #为参考基因组建立索引
bwa mem 398200_index DRR398234.fastq >test_bwa_398200.sam #bwa比对
图片.png
less test_bwa_398200.sam #查看

图片.png

未对双端测序文件进行拆分,比对结果出错

fastq-dump --split-3 DRR398234.sra
图片.png

结果生成DRR398234_1.fastq
DRR398234_2.fastq

再次比对

bwa mem 398200_index DRR398234_1.fastq DRR398234_2.fastq>test_bwa_398200.sam
图片.png
less test_bwa_398200.sam
图片.png

三、 samtools

SAM格式转为BAM格式

samtools faidx sequence.fasta
  #为参考基因组建立索引,生成了prefix.fai文件
less sequence.fasta.fai
按q退出
samtools view -bhS -t sequence.fasta.fai -o 398200_bwa.bam test_bwa_398200.sam #(最后这个sam文件用大家自己目录的sam文件名)   ##sam文件转为bam文件
图片.png
less 398200_bwa.bam
按y

按q退出
samtools sort 398200_bwa.bam -o 398200_bwa.bam.sorted  #为bam文件排序,sort只能为bam文件排序,而不能为sam;不同版本samtools sort命令的-o参数不同

图片.png
samtools index 398200_bwa.bam.sorted  ##为排序的bam文件建立索引. *.bai文件
图片.png

统计比对结果

samtools depth 398200_bwa.bam.sorted>398200_depth.txt
图片.png
less 398200_depth.txt
按q退出
samtools flagstat 398200_bwa.bam.sorted
图片.png

查看比对结果

samtools tview

samtools tview 398200_bwa.bam.sorted sequence.fasta

图片.png

g, 输入:CP000100.1:1000

此处由于我不知道输入应为什么信息,所以无法呈现......所以跳过此步

BAM2BCF

samtools mpileup -f sequence.fasta 398200_bwa.bam.sorted >bcf_2.txt
图片.png
less bcf_2.txt
图片.png
samtools mpileup -gf sequence.fasta 398200_bwa.bam.sorted>398200_bwa.bcf
图片.png
less 398200_bwa.bcf

按y

图片.png

bcftools

bcftolls检测变异位点

cd ~/bwa_test
bcftools call -vm 398200_bwa.bcf -o 398200_bwa.variant.bcf
图片.png
bcftools view -v snps,indels 398200_bwa.variant.bcf > 398200_bwa.snps.vcf
图片.png
less 398200_bwa.snps.vcf

按q退出

按键盘的上下符号可以浏览更多

变异位点过滤

bcftools filter -o 398200_bwa.snps.filtered.vcf -i 'QUAL>20 && DP>5' 398200_bwa.snps.vcf

bcftools filter [OPTIONS] FILE 该命令用于固定阈值过滤

-i, --include EXPRESSION 接表达式命令,当时表达式返回为真值时,输出该位点。表达式命令和使用见表达式部分

[最全bcftools使用说明--只看本文就够了 - 简书 (jianshu.com)]https://www.jianshu.com/p/99895c7338b2

图片.png
less 398200_bwa.snps.filtered.vcf
图片.png

五、使用Annovar注释变异位点

convert2annovar.pl -format vcf4 398200_bwa.snps.filtered.vcf > 398200_bwa.snps.filtered.avinput #生成annovar输入文件
图片.png
less 398200_bwa.snps.filtered.avinput
图片.png
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/008/248/145/GCA_008248145.1_ASM824814v1/GCA_008248145.1_ASM824814v1_genomic.gbff.gz  #下载gbff文件
图片.png
gunzip GCA_008248145.1_ASM824814v1_genomic.gbff.gz #解压
图片.png
perl bp_genbank2gff3.pl GCA_008248145.1_ASM824814v1_genomic.gbff  #将gbff格式转为gff格式

失败,没有bp_genbank2gff3.pl文件,在网上搜索,下载了一个
https://blog.csdn.net/weixin_42677653/article/details/106977642

less GCA_008248145.1_ASM824814v1_genomic.gbff.gff
图片.png

再次尝试

perl bp_genbank2gff3.pl GCA_008248145.1_ASM824814v1_genomic.gbff
图片.png

图片.png

失败,再次重新找

wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/350/185/GCA_000350185.1_ASM35018v1/GCA_000350185.1_ASM35018v1_genomic.gff.gz
图片.png

图片.png
gunzip GCA_000350185.1_ASM35018v1_genomic.gff.gz  #解压
图片.png
/disk1/shares/gff3ToGenePred
图片.png
/disk1/shares/gff3ToGenePred -useName GCA_000350185.1_ASM35018v1_genomic.gff 3982-genome_refGene.txt
图片.png
less 3982-genome_refGene.txt
图片.png
cut -f 12 3982-genome_refGene.txt > column_3982.txt
cut -f 2-15 3982-genome_refGene.txt > column_3982else.txt
图片.png
paste column_3982.txt column_3982else.txt >3982-genome-new_refGene.txt
图片.png
retrieve_seq_from_fasta.pl -format refGene -seqfile sequence.fasta -outfile 3982-genome-new_refGeneMrna.fa 3982-genome-new_refGene.txt
图片.png

图片.png
less 3982-genome-new_refGeneMrna.fa
cp 3982-genome-new_refGene* ~/Biosofts/annovar/humandb/
ll ~/Biosofts/annovar/humandb/  #自定义注释数据库
annotate_variation.pl --geneanno --dbtype refGene --buildver 3982-genome-new 398200_bwa.snps.filtered.avinput ~/Biosofts/annovar/humandb/ #注释变异位点
less 398200_bwa.snps.filtered.avinput.exonic_variant_function
less 398200_bwa.snps.filtered.avinput.variant_function
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容

  • 基因组重测序数据目的:需要检测基因组中的变异,找到并定位这些突变位点 条件:参考基因组、重测序数据、 分析流程: ...
    古月福_阅读 2,934评论 1 2
  • wes定义: 全外显子组测序,是利用目标序列捕获技术, 将全基因组编码基因外显子区域的DNA捕获并富集后,进行高通...
    凤凰_0949阅读 4,195评论 0 7
  • TITLE: 全外显子测序数据分析AUTHOR: Shuntai Yu [TOC] 外显子是形成mRNA后剪接...
    余顺太阅读 14,962评论 0 24
  • 写在前面 其实很多作者已经探索的差不多了,相关脚本、教程也很多,但我还是自己系统的总结一下吧。有时候感觉是浪费时间...
    生信卷王阅读 27,921评论 33 159
  • samtools是一个用于操作sam和bam文件(通常是短序列比对工具如bwa,bowtie2,hisat2,to...
    AsuraPrince阅读 18,283评论 0 18