MultiQC软件安装运行

安装步骤如下:

一、安装MultiQC

conda install -c bioconda multiqc

发现之前安装的conda用不了了,出现下面的问题

image.png
于是我去搜索了一下解决办法,以下解决方法借鉴https://www.jianshu.com/p/edaa744ea47d

1.删除原有安装包

rm -rf anaconda3

2.重新下载conda

sh Anaconda3-5.2.0-Linux-x86_64.sh

3.下载过程中,在其中是否需要将conda加入环境变量的时候选择No,因为下载的程序会随Python版本的更新而更新,但conda不会,反而会污染环境,所以需要我们手动添加环境变量
image.png

4.给activate添加权限,再启动conda

1 cd anaconda3
2 ls
3 cd bin
4 ls
5 chmod 777 activate
6 source ./activate

结果如下,命令前面出现base说明已经在conda环境下了
image.png

后面的python环境配置和conda channels环境配置在老师2.3PPT后面

二、正式开始安装MultiQC

1.

conda install -c bioconda multiqc

2.结果发现第一步执行失败,conda无法安装multiqc,处理方法引用https://blog.csdn.net/ada0915/article/details/78529877(该方法可能出现不稳定的情况)

#首先先添加清华的镜像源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes

#如果无法解决,则删除channels配置文件中部分内容

#具体操作如下:
#1、快速创建channels配置文件的备份(保险起见)
cp ~/.condarc{,.bak}

#查看配置文件的内容
cat ~/.condarc.bak 
channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
  - https://nanomirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  - defaults
  - https://nanomirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
  - https://nanomirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/conda
  - bioconda
  - r
  - conda-forge
show_channel_urls: true

#2、删除部分内容
## 主要是删除此行: - defaults
#修改后配置文件的内容如下:
vim ~/.condarc
channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
show_channel_urls: true

一般不建议使用这个方法,conda不能使用可能是安装之后没有更新python环境等一系列原因,实在不行就用pip下载

sudo apt-get install python-pip
pip install multiqc

三、下载SRA序列

1.从NCBI的SRA库中SRR序列
image.png

image.png

2.下载单个SRA文件

prefetch SRR7511222
prefetch SRR7511256

3.单个拆解SRA文件

fastq-dump --split-files SRR7511222
fastq-dump --split-files SRR7511256

结果如下
image.png

或批量拆散SRA文件
(引用https://www.jianshu.com/p/eeaa78f6c6c4

(1)新建脚本文件

vim fqdump.sh

(2)输入以下内容

#!/bin/sh
for i in *sra
do
echo $i
fastq-dump --gzip --split-files $i
done

(3)运行

sh fqdump.sh

四、用fastqc进行数据质量评价

fastqc SRR7511222_1.fastq
fastqc SRR7511222_2.fastq
fastqc SRR7511256_1.fastq
fastqc SRR7511256_2.fastq

结果如下
image.png

通过Winscp或者共享文件夹下载到本地,用浏览器打开fastqc_report.html浏览

五、使用MultiQC

以下内容引用https://www.jianshu.com/p/85da4dcc6020

1.输入以下命令

cd ~/ncbi/public/sra
multiqc .

结果如下
image.png

生成两个文件,multiqc_report.html和multiqc_data,前者用网页查看,后者包含一些数据的基本信息和日志文档

2.整合的fastqc文件包括以下几部分

(1)General Statistics:所有样本数据基本情况统计
image.png
%Dups——重复reads的比例、%GC——GC含量占总碱基的比例,比例越小越好、M Seqs——总测序量(单位:millions)

(2)Sequence Counts:序列计数
image.png

黑色代表重复reads的数量,这四个reads重复序列都比较高,说明两个样本序列中有用的reads比较少。

(3)Sequence Quality Histograms:每个read各位置碱基的平均测序质量
image.png

横坐标——碱基的位置,纵坐标——质量分数,质量分数=-10log10p(p代表错误率),所以当质量分数为40的时候,p就是0.0001。此时说明测序质量非常好。绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好。如图可以看出我的四条序列总的质量都比较合理,SRR7511256-2在240个碱基之后平均质量都落在红色区域,测序质量不太好。

(4)PerSequence Quality Scores 具有平均质量分数的reads的数量
image.png

横坐标——平均序列质量分数,纵坐标——reads数,绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好,当峰值小于27时——warning,当峰值小于20时——fail,由此图中可以看出低质量reads占整体reads的比例(估算各颜色区域曲线下面积)。如图可以看出4条序列在28以后都是绿色位置,最高峰在35左右,总体测序质量不错。

(5)Per Base Sequence Content :每个read各位置碱基ATCG的比列
image.png

reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色。正常情况下每个位置每种碱基出现的概率是相近的。如图,reads每个位置的ATGC含量比例是非常不均匀的,都报错,可能有过表达的序列的污染。

(6)5 Per Sequence GC Content :reads的平均GC含量
image.png

横坐标——GC含量百分比,纵坐标——数量,正常的样本的GC含量曲线会趋近于正态分布曲线,曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差,形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。如图,四个样本和正态分布曲线相差很远,说明有文库污染或者部分reads构成的子集有偏差。

(7)Per Base N Content :每条reads各位置N碱基含量比例
image.png

横坐标——read中的位置,纵坐标——N的数量比,当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率。正常情况下,N值非常小。如图,说明测序仪器能辨别每条reads的每个位置。

(8)Sequence Length Distribution 序列长度分布
image.png

该序列长度为250bp

(9)Sequence Duplication Levels:每个序列的相对重复水平
image.png

四个序列中的重复的reads的程度都超过了范围,unique reads比例太少。

(10)Overrepresented sequences:文库中过表达序列的比例
image.png

横坐标——过表达序列的比例,纵坐标——样本。如图这四个序列中过表达的序列的比例都远远超过1%,如果出现这种情况,不是这种转录本巨量表达,就是样品被污染。

(11) Adapter Content 接头含量
image.png

如图没有找到超过0.1%的接头序列含量。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351

推荐阅读更多精彩内容