登录注册写文章

MultiQC使用

MultiQC使用

一、MultiQC的安装

1.先安装conda

我们先前安装过，但是发现不能用了，在网上查询后，发现问题，下面是解决方法
<参考https://www.jianshu.com/p/edaa744ea47d>

下载conda时选择是否自动添加环境变量时，这里选择no,因为自动添加会干扰系统，致使conda不能用，然后输入以下命令运行conda

cd anaconda3/bin
chmod 777 activate #给activate添加一下权限才能使用conda
source ./activate #启动conda

当命令行前面出现(base)的时候说明现在已经在conda的环境中了

image.png
注意用conda安装的软件必须在conda环境下
之后的配置Python环境和配置conda channels步骤和老师ppt里讲的一致

2.安装MultiQC

输入以下命令

conda install -c bioconda multiqc

-c这个参数很重要，通过它来指定软件下载的镜像位置

使用以下命令查看是否安装成功

multiqc --version
或者
multiqc -h

发现安装成功

image.png

image.png

二、下载sra序列

1、下载数据

在NCBI数据库里面的SRA数据库里随意找了两个SRR数据下载下来
为防止太大，找了几个小一点的，如图所示

1.PNG

image.png
使用下列命令下载下来

prefetch SRR8073294
prefetch SRR8073207

image.png

显示成功下载，下载后的内容放在~/ncbi/public/sra路径下

2、解压SRA文件为fastq格式

有两种方法解压

一个一个解压

fastq-dump --gzip --split-files  SRR8073294.sra
fastq-dump --gzip --split-files  SRR8073207.sra

批量下载
我建议就单独解压，因为该文件下不止我们现在需要用的两个SRR，用prefetch下载的都在这里，除非在该路径下mkdir一个文件夹存放这两个数据

(1).新建脚本文件

vi fqdump.sh

(2).输入以下脚本

#!/bin/sh
for i in *sra
do
echo $i
fastq-dump --gzip --split-files $i
done

保存退出
这里--gzip参数是为了生成压缩的gz格式fastq文件，以节省磁盘空间
(3)运行脚本

sh fqdump.sh

成功转换成以fastq.gz结尾的四个文件，因为是双端测序，每个样本有正向和反向两个文件

image.png

三、用fastqc进行数据质量评价

fastqc SRR8073207_1.fastq.gz
fastqc SRR8073207_2.fastq.gz
fastqc SRR8073294_1.fastq.gz
fastqc SRR8073294_2.fastq.gz

得到以下结果

image.png

四、使用multiqc整合

<以下有些内容有所参考https://www.jianshu.com/p/85da4dcc6020里的内容>

输入以下命令

multiqc .

结果如下

image.png
生成了两个文件，1个html报告和1个multiqc_data的文件夹，前者直接网页打开就可以查看，后者包含一些数据基本的统计信息和日志文档

image.png
可以把multiqc_report.html 下载下来到本地，用windows的浏览器打开，也可以直接在图形界面打开查看

五、结果分析

1. General Statistics：所有样本数据基本情况统计

image.png

这里可以看到重复reads的比例、GC含量占总碱基的比例、测序长度、总测序量

2.Sequence Counts：序列计数

image.png

这里可以看到重复reads，我找的这四个序列重复reads比例都偏高,尤其是SRR8073207达到了90%以上，说明这两个样本的序列中有用的reads数目较少

3.Sequence Quality Histograms ：每个read各位置碱基的平均测序质量

image.png

绿色区间——质量很好，橙色区间——质量合理，红色区间——质量不好
可以看出SRR8073207测序质量比SRR8073294的好，SRR8073294_2这个有点问题

4.Per Sequence Quality Scores 具有平均质量分数的reads的数量

image.png

绿色区间——质量很好、橙色区间——质量合理、红色区间——质量不好
可以看出这四个序列的整体测序质量还是很不错，所有的都在绿色区域

5.Per Base Sequence Content ：每个read各位置碱基ATCG的比列

image.png

结果显示四个序列都报错，说明每个位置每种碱基出现的概率差别很大，可能有过表达序列的污染

6.Per Sequence GC Content ：reads的平均GC含量

image.png

这里结果显示四条序列都被报错，从形状上来看曲线和正态曲线相差甚远，可能是由于文库的污染或是部分reads构成的子集有偏差造成的

7.Per Base N Content ：每条reads各位置N碱基含量比例

image.png

说明测序仪器能辨别这四个序列中每条reads的每个位置的碱基

8.Sequence Length Distribution 序列长度分布

image.png

对于这四个序列，每次测序仪测出来的长度主要都在251bp

9.Sequence Duplication Levels：每个序列的相对重复水平

image.png

四个序列中的重复的reads的程度都超过了范围，unique reads比例太少

10.Overrepresented sequences：文库中过表达序列的比例

image.png

这四个序列中过表达的序列的比例都远远超过1%,SRR8073294的两个序列中过表达的序列都超过50%，如果出现这种情况，不是这种转录本巨量表达，就是样品被污染

11.Adapter Content 接头含量

image.png

SRR8073294的两个序列接头含量比SRR8073207多，但两者接头含量都超过了5%，而且SRR8073294_1的接头含量接近10%

总的来说这两个样本测序质量还行，但是重复序列太多了，没有多少有用的序列，GC含量不正常，很有可能样品存在被污染的情况。

最后编辑于：2019.11.21 21:59:19

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

转录组学习三（数据质控）
转录组学习一（软件安装）转录组学习二（数据下载）转录组学习三（数据质控）转录组学习四（参考基因组及gt...
Dawn_WangTP阅读 20,889评论 3赞 34
RNA-seq：转录组数据分析处理（上）（2019/05/07更新）
superqun原创一、流程概括 RNA-seq的原始数据（raw data）的质量评估 linux环境和R语言...
superqun阅读 17,872评论 11赞 67

MultiQC软件安装运行
安装步骤如下：一、安装MultiQC 发现之前安装的conda用不了了，出现下面的问题 1.删除原有安装包 2....
努力再努力_cf77阅读 10,563评论 0赞 2
RNA-seq练习第一部分（原始数据下载，提取fastq文件，fastqc质控）
原始数据来源于这篇文章https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi...
生信start_site阅读 14,063评论 1赞 20
Multiqc（转录组分析之质量评估）
fastqc是一款基于java的软件，能够对测序数据的质量进行评估。一个样本生成一个报告，当样本量过多时，逐一查看...
stanford_strive阅读 18,688评论 1赞 33

友情链接更多精彩内容

17赞18赞

1赞赏

手机看全文