找到SRA号
image.png
在右上角的搜索框中输入 bacteria genome
image.png
随便选择一篇文章
image.png
有一句话说SRA号在Table 1
找到Table 1
image.png
随便选一个 (我选了最小的那个)不能直接复制 只能连接到SRA数据库 在这个页面复制
image.png
下载
sratoolkit --version
下载文件
prefetch SRR8648835
下载的时候出现了与链接https://cloud.tencent.com/developer/article/1518672
相同的问题 也试过用linux课上的Redhat下载 问题以运 过了几天再次去尝试 就没有了... 不知道为什么
image.png
位置在ncbi/public/sra
image.png
fastq-dump --gzip --split-files SRR8648835.sra
image.png
质控 去接头
fastqc --veision
image.png
fastqc -o ~/job4/ SRR8492865_1.fastq.gz SRR8492865_2.fastq.gz
image.png
java -jar ~/biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 SRR8492865_1.fastq.gz SRR8492865_2.fastq.gz ~/job_4/SRR8492865_forward_paired.fq.gz ~/job_4/SRR8492865_forward_unpaired.fq.gz ~/job_4/SRR8492865_reverse_paired.fq.gz ~/job_4/SRR8492865_reverse_unpaired.fq.gz ILLUMINACLIP:/home/scarlett/biosofts/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75
image.png
image.png
SRR8648835_1_fastqc.html
image.png
untitled.png
untitled1.png
untitled2.png
untitled3.png
untitled4.png
untitled5.png
untitled6.png
untitled7.png
SRR8648835_2_fastqc.html
image.png
2.png
3.png
4.png
5.png
6.png
7.png
8.png
11.png
spades组装
spades.py -1 SRR8492865_forward_paired.fq.gz -2 SRR8492865_forward_unpaired.fq.gz -o ~/job_4/spades_out
image.png
出现了上述情况 内存不足 电脑是4G的 把虚拟机内存改成2G也没有 用seqtk处理一下 减少文件大小
先解压为fastq文件
gunzip -c SRR8648835_forward_paired.fq.gz > SRR8648835_forward_paired.fq
gunzip -c SRR8648835_reverse_paired.fq.gz > SRR8648835_reverse_paired.fq
image.png
将forward和reverse各抽出100000条
seqtk sample -s 60 SRR8648835_forward_paired.fq 100000 > SRR8648835_forward_paired_out.fq
seqtk sample -s 60 SRR8648835_reverse_paired.fq 100000 > SRR8648835_reverse_paired_out.fq
image.png
再用spades组装
spades.py -1 SRR8648835_forward_paired_out.fq -2 SRR8648835_reverse_paired_out.fq -o ./spades_out
image.png
应该是成功了?只有warning
看了一下spades_out文件夹
image.png
成功
Quast评价组装的基因组效果
quast.py ~/job_4/spades_out/contigs.fasta -o ~/job_4/quast_out
image.png
image.png