MultiQC使用

一、MultiQC的安装

1.先安装conda

我们先前安装过,但是发现不能用了,在网上查询后,发现问题,下面是解决方法
<参考https://www.jianshu.com/p/edaa744ea47d>

  • 下载conda时选择是否自动添加环境变量时,这里选择no,因为自动添加会干扰系统,致使conda不能用,然后输入以下命令运行conda
cd anaconda3/bin
chmod 777 activate #给activate添加一下权限才能使用conda
source ./activate #启动conda
  • 当命令行前面出现(base)的时候说明现在已经在conda的环境中了
    image.png
  • 注意用conda安装的软件必须在conda环境下
  • 之后的配置Python环境和配置conda channels步骤和老师ppt里讲的一致

2.安装MultiQC

  • 输入以下命令
conda install -c bioconda multiqc

-c这个参数很重要,通过它来指定软件下载的镜像位置

  • 使用以下命令查看是否安装成功
multiqc --version
或者
multiqc -h

发现安装成功
image.png
image.png

二、下载sra序列

1、下载数据

  • 在NCBI数据库里面的SRA数据库里随意找了两个SRR数据下载下来

  • 为防止太大,找了几个小一点的,如图所示


    1.PNG
    image.png
  • 使用下列命令下载下来

prefetch SRR8073294
prefetch SRR8073207
image.png

显示成功下载,下载后的内容放在~/ncbi/public/sra路径下

2、解压SRA文件为fastq格式

有两种方法解压

  • 一个一个解压
fastq-dump --gzip --split-files  SRR8073294.sra
fastq-dump --gzip --split-files  SRR8073207.sra
  • 批量下载
    我建议就单独解压,因为该文件下不止我们现在需要用的两个SRR,用prefetch下载的都在这里,除非在该路径下mkdir一个文件夹存放这两个数据

(1).新建脚本文件

vi fqdump.sh

(2).输入以下脚本

#!/bin/sh
for i in *sra
do
echo $i
fastq-dump --gzip --split-files $i
done

保存退出
这里--gzip参数是为了生成压缩的gz格式fastq文件,以节省磁盘空间
(3)运行脚本

sh fqdump.sh
  • 成功转换成以fastq.gz结尾的四个文件,因为是双端测序,每个样本有正向和反向两个文件
    image.png

三、用fastqc进行数据质量评价

fastqc SRR8073207_1.fastq.gz
fastqc SRR8073207_2.fastq.gz
fastqc SRR8073294_1.fastq.gz
fastqc SRR8073294_2.fastq.gz

得到以下结果
image.png

四、使用multiqc整合

<以下有些内容有所参考https://www.jianshu.com/p/85da4dcc6020里的内容>

  • 输入以下命令
multiqc .
  • 结果如下
    image.png
  • 生成了两个文件,1个html报告和1个multiqc_data的文件夹,前者直接网页打开就可以查看,后者包含一些数据基本的统计信息和日志文档


    image.png
  • 可以把multiqc_report.html 下载下来到本地,用windows的浏览器打开,也可以直接在图形界面打开查看

五、结果分析

1. General Statistics:所有样本数据基本情况统计

image.png

这里可以看到重复reads的比例、GC含量占总碱基的比例、测序长度、总测序量

2.Sequence Counts:序列计数

image.png

这里可以看到重复reads,我找的这四个序列重复reads比例都偏高,尤其是SRR8073207达到了90%以上,说明这两个样本的序列中有用的reads数目较少

3.Sequence Quality Histograms :每个read各位置碱基的平均测序质量

image.png

绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好
可以看出SRR8073207测序质量比SRR8073294的好,SRR8073294_2这个有点问题

4.Per Sequence Quality Scores 具有平均质量分数的reads的数量

image.png

绿色区间——质量很好、橙色区间——质量合理、红色区间——质量不好
可以看出这四个序列的整体测序质量还是很不错,所有的都在绿色区域

5.Per Base Sequence Content :每个read各位置碱基ATCG的比列

image.png

结果显示四个序列都报错,说明每个位置每种碱基出现的概率差别很大,可能有过表达序列的污染

6.Per Sequence GC Content :reads的平均GC含量

image.png

这里结果显示四条序列都被报错,从形状上来看曲线和正态曲线相差甚远,可能是由于文库的污染或是部分reads构成的子集有偏差造成的

7.Per Base N Content :每条reads各位置N碱基含量比例

image.png

说明测序仪器能辨别这四个序列中每条reads的每个位置的碱基

8.Sequence Length Distribution 序列长度分布

image.png

对于这四个序列,每次测序仪测出来的长度主要都在251bp

9.Sequence Duplication Levels:每个序列的相对重复水平

image.png

四个序列中的重复的reads的程度都超过了范围,unique reads比例太少

10.Overrepresented sequences:文库中过表达序列的比例

image.png

这四个序列中过表达的序列的比例都远远超过1%,SRR8073294的两个序列中过表达的序列都超过50%,如果出现这种情况,不是这种转录本巨量表达,就是样品被污染

11.Adapter Content 接头含量

image.png

SRR8073294的两个序列接头含量比SRR8073207多,但两者接头含量都超过了5%,而且SRR8073294_1的接头含量接近10%

  • 总的来说这两个样本测序质量还行,但是重复序列太多了,没有多少有用的序列,GC含量不正常,很有可能样品存在被污染的情况。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容