一、MultiQC的安装
1.先安装conda
我们先前安装过,但是发现不能用了,在网上查询后,发现问题,下面是解决方法
<参考https://www.jianshu.com/p/edaa744ea47d>
- 下载conda时选择是否自动添加环境变量时,这里选择no,因为自动添加会干扰系统,致使conda不能用,然后输入以下命令运行conda
cd anaconda3/bin
chmod 777 activate #给activate添加一下权限才能使用conda
source ./activate #启动conda
-
当命令行前面出现(base)的时候说明现在已经在conda的环境中了
- 注意用conda安装的软件必须在conda环境下
- 之后的配置Python环境和配置conda channels步骤和老师ppt里讲的一致
2.安装MultiQC
- 输入以下命令
conda install -c bioconda multiqc
-c这个参数很重要,通过它来指定软件下载的镜像位置
- 使用以下命令查看是否安装成功
multiqc --version
或者
multiqc -h
发现安装成功 二、下载sra序列
1、下载数据
在NCBI数据库里面的SRA数据库里随意找了两个SRR数据下载下来
-
为防止太大,找了几个小一点的,如图所示
使用下列命令下载下来
prefetch SRR8073294
prefetch SRR8073207
显示成功下载,下载后的内容放在~/ncbi/public/sra路径下
2、解压SRA文件为fastq格式
有两种方法解压
- 一个一个解压
fastq-dump --gzip --split-files SRR8073294.sra
fastq-dump --gzip --split-files SRR8073207.sra
- 批量下载
我建议就单独解压,因为该文件下不止我们现在需要用的两个SRR,用prefetch下载的都在这里,除非在该路径下mkdir一个文件夹存放这两个数据
(1).新建脚本文件
vi fqdump.sh
(2).输入以下脚本
#!/bin/sh
for i in *sra
do
echo $i
fastq-dump --gzip --split-files $i
done
保存退出
这里--gzip参数是为了生成压缩的gz格式fastq文件,以节省磁盘空间
(3)运行脚本
sh fqdump.sh
-
成功转换成以fastq.gz结尾的四个文件,因为是双端测序,每个样本有正向和反向两个文件
三、用fastqc进行数据质量评价
fastqc SRR8073207_1.fastq.gz
fastqc SRR8073207_2.fastq.gz
fastqc SRR8073294_1.fastq.gz
fastqc SRR8073294_2.fastq.gz
得到以下结果四、使用multiqc整合
<以下有些内容有所参考https://www.jianshu.com/p/85da4dcc6020里的内容>
- 输入以下命令
multiqc .
-
结果如下
-
生成了两个文件,1个html报告和1个multiqc_data的文件夹,前者直接网页打开就可以查看,后者包含一些数据基本的统计信息和日志文档
- 可以把multiqc_report.html 下载下来到本地,用windows的浏览器打开,也可以直接在图形界面打开查看
五、结果分析
1. General Statistics:所有样本数据基本情况统计
这里可以看到重复reads的比例、GC含量占总碱基的比例、测序长度、总测序量
2.Sequence Counts:序列计数
这里可以看到重复reads,我找的这四个序列重复reads比例都偏高,尤其是SRR8073207达到了90%以上,说明这两个样本的序列中有用的reads数目较少
3.Sequence Quality Histograms :每个read各位置碱基的平均测序质量
绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好
可以看出SRR8073207测序质量比SRR8073294的好,SRR8073294_2这个有点问题
4.Per Sequence Quality Scores 具有平均质量分数的reads的数量
绿色区间——质量很好、橙色区间——质量合理、红色区间——质量不好
可以看出这四个序列的整体测序质量还是很不错,所有的都在绿色区域
5.Per Base Sequence Content :每个read各位置碱基ATCG的比列
结果显示四个序列都报错,说明每个位置每种碱基出现的概率差别很大,可能有过表达序列的污染
6.Per Sequence GC Content :reads的平均GC含量
这里结果显示四条序列都被报错,从形状上来看曲线和正态曲线相差甚远,可能是由于文库的污染或是部分reads构成的子集有偏差造成的
7.Per Base N Content :每条reads各位置N碱基含量比例
说明测序仪器能辨别这四个序列中每条reads的每个位置的碱基
8.Sequence Length Distribution 序列长度分布
对于这四个序列,每次测序仪测出来的长度主要都在251bp
9.Sequence Duplication Levels:每个序列的相对重复水平
四个序列中的重复的reads的程度都超过了范围,unique reads比例太少
10.Overrepresented sequences:文库中过表达序列的比例
这四个序列中过表达的序列的比例都远远超过1%,SRR8073294的两个序列中过表达的序列都超过50%,如果出现这种情况,不是这种转录本巨量表达,就是样品被污染
11.Adapter Content 接头含量
SRR8073294的两个序列接头含量比SRR8073207多,但两者接头含量都超过了5%,而且SRR8073294_1的接头含量接近10%
- 总的来说这两个样本测序质量还行,但是重复序列太多了,没有多少有用的序列,GC含量不正常,很有可能样品存在被污染的情况。