miRDeep2学习笔记

本文转自  http://www.cnblogs.com/ZHshuang463508120/p/3593679.html

一、mirDeep2安装

下载和解压

wget http://mdc.helmholtz.de/38350089/en/research/research_teams/systems_biology_of_gene_regulatory_elements/projects/miRDeep/mirdeep2_0_0_5.zip

unzip mirdeep2_0_0_5.zip

如果用mirDeep2自带的install.pl安装会遇到下载的文件不存在的情况,比如bowtie

那么你需要自己安装几个软件。解压后的路径下面有个README里面详细介绍了如何自行安装mirdeep2。不过有些细节需要修改。

首先,下载几个必须的package,下载到/home/disk6/src路径下,解压也都在这个路径下完成

(ps:所有附带安装软件的网址,参照下载好的mirdeep2目录下的README)

bowtie                  #version 0.12.7

ViennaRNA-1.8.5.tar.gz

squid-1.9g.tar.gz

randfold-2.0.tar.gz

PDF-API2-0.73.tar.gz

perl                   #我的版本是 5.10.1

~~~~~~~~~~安装bowtie

unzip bowtie-0.12.7-linux-x86_64.zip

解压后就是可执行的二进制文件,不需要编译,省心啊

把bowtie加入环境变量

~~~~~~~~~安装ViennaRNA

tar -zxf ViennaRNA-1.8.5.tar.gz

cd ViennaRNA-1.8.5

./configure --prefix=/home/disk6/tools/ViennaRNA  #/home/disk6/tools/是我安装软件的路径,我把常用的软件都安装到这里,或者建立ln -s到tools下面相应的目录,然后一个个放到path中

make

make install

~~~~~~~~~安装squid-1.9g.tar.gz和randfold-2.0.tar.gz

tar -zxf squid-1.9g.tar.gz

cd squid-1.9g

./configure --prefix=/home/disk6/tools/squid    #只有configure之后才有squid.h文件,这是下面的randfold2.0需要的文件

make

make install

tar -zxf randfold-2.0.tar.gz

cd randfold2.0

编辑Makefile文件,将INCLUDE=-I这一行替换为INCLUDE=-I. -I/home/disk6/src/squid-1.9g/ -L/home/disk6/src/squid-1.9g/

make

将randfold加入path

~~~~~~~~~~~~安装PDF-API2-0.73.tar.gz

tar -zxf PDF-API2-0.73.tar.gz

cd PDF-API2-0.73

mkdir ../mirdeep2/lib/  #这个不能忘了,一开始就解压了mirdeep2,在mirdeep2下面创建一个lib路径

perl Makefile.PL PREFIX=/home/disk6/src/mirdeep2 LIB=/home/disk6/src/mirdeep2/lib

make

make test

make install   #至此,/home/disk6/src/mirdeep2/lib下面已经有了两个目录PDF和x86_64-linux-thread-multi

~~~~~~~~~~~~配置mirdeep2的perl5lib 就是那个PDF了

在~/.bash_profile里面加入

export PERL5LIB=PERL5LIB:/home/disk6/src/mirdeep2/lib

~~~~~~~~~测试所有安装过的软件是否正常

to test if everything is installed properly type in

1) bowtie

2) RNAfold -h

3) randfold

4) make_html.pl

~~~~~~~~~~最后,在path中加入miRDeep2的路径

二、mirDeep2介绍

miRDeep2的文件夹下面有自带的tutorial,参考通过参考这个例子学习miRDeep2.

tutorial_dir文件夹里有下面几个文件,.fa为fasta格式。

cel_cluster.fa:            #   研究物种的基因组文件

mature_ref_this_species.fa:         #   研究物种的成熟miRNA文件,miRBase有下载

mature_ref_other_species.fa:        # 其他物种相关的成熟miRNA文件,miRBase有下载

precursors_ref_this_species.fa:     # 研究物种miRNA前体的文件,miRBase有下载

reads.fa:                           #   deep sequencing reads

~~~~~~~~~~第一步~~~~~~~~~

#  利用bowtie-build建立基因组文件的index

bowtie-build cel_cluster.fa cel_cluster      #   cel_cluster.fa是基因组文件,cel_cluster是index文件的

前缀,这个前缀可以是任意的

#   字符,不一定要和基因组文件相同。

~~~~~~~~~~第二步~~~~~~~~~

#  处理reads文件并且把它map到基因上

perl mapper.pl reads.fa -c -j -k TCGTATGCCGTCTTCTGCTTGT  -l 18 -m -p cel_cluster -s

reads_collapsed.fa -t reads_collapsed_vs_genome.arf -v

参数讲解

-c 指出输入文件是fasta格式,同类的参数还有-a(seq.txt format),-b(qseq.txt format),-e(fastq format),-d

(contig file)

-j 删除不规范的字母(不规范的字母是指除a,c,g,t,u,n,A,C,G,T,U,N之外的字母)

-k 剪切接头,后跟接头序列,例子中的TCGTATGCCGTCTTCTGCTTGT就是接头

-l 忽视小于某长度的序列,例子中忽视18nt长度的reads

-m collapses the reads

-p 将处理过的reads map到之前建立过索引的基因组上,例子中的cel_cluster

-s 指出将处理过的reads输出到某个文件,例子中将处理过的reads输出到reads_collapsed.fa

-t 指出将mapping的结果输出到某个文件,例子中将mapping后的结果输出到reads_collapsed_vs_genome.arf文件中

-v 在屏幕上显示处理的动作,加v和不加v的区别见附注1,明显看出来加v后屏幕不仅显示了一个处理后的summary,而

且显示了mapper的动作,如discarding,clipping,collapsing,trimming。不加v屏幕上只显示一个summary

例子中未使用的参数

处理/mapping参数

-g 给reads一个前缀,默认是seq。-s和-t两个输出文件中reads前面会多出seq三个字母。

-h parse to fasta format

-i 转换rna成dna(再map到基因组)convert rna to dna alphabet (to map against genome)

-q 种子序列中一个错配(mapping的时间会变长??)map with one mismatch in the seed (mapping takes

longer)

-r 允许在基因组上map到的最多的位置数,默认是5。也就是说最多map 5个位置

-u 不移除临时文件的路径

-n 覆盖已有文件

~~~~~~~~~~第三步~~~~~~~~~

# fast quantitation of reads mapping to known miRBase precursors.

(This step is not required for

identification of known and novel miRNAs in the deep sequencing data when using miRDeep2.pl.)

快速定量reads mapping到已知的miRNA前体。利用miRDeep.pl在deep sequencing数据中鉴定已知和未知的miRNA,这

一步不是必须的。

quantifier.pl -p precursors_ref_this_species.fa -m mature_ref_this_species.fa -r reads_collapsed.fa

-t cel -y 16_19

参数讲解

-p miRNA前体文件,miRBase可以下载

-m 成熟miRNA序列文件,miRBase可以下载

-r reads文件

-t 物种,可以指定某个物种,这样分析的时候只考虑某个物种的数据。也可以不指定,分析所有的

-y [time]    optional otherwise its generating a new one

屏幕上显示的结果

getting samples and corresponding read numbers

seq     374333 reads

Converting input files

building bowtie index

mapping mature sequences against index

# reads processed: 174

# reads with at least one reported alignment: 6 (3.45%)

# reads that failed to align: 168 (96.55%)

Reported 6 alignments to 1 output stream(s)

mapping read sequences against index

# reads processed: 1505

# reads with at least one reported alignment: 1088 (72.29%)

# reads that failed to align: 417 (27.71%)

Reported 1099 alignments to 1 output stream(s)

analyzing data

6 mature mappings to precursors

Expressed miRNAs are written to expression_analyses/expression_analyses_16_19/miRNA_expressed.csv

not expressed miRNAs are written to

expression_analyses/expression_analyses_16_19/miRNA_not_expressed.csv

Creating miRBase.mrd file

after READS READ IN thing

make_html2.pl -q expression_analyses/expression_analyses_16_19/miRBase.mrd -k

mature_ref_this_species.fa -z -t C.elegans -y 16_19  -o -i

expression_analyses/expression_analyses_16_19/mature_ref_this_species_mapped.arf  -l -m cel

miRNAs_expressed_all_samples_16_19.csv

miRNAs_expressed_all_samples_16_19.csv file with miRNA expression values

parsing miRBase.mrd file finished

creating PDF files

creating pdf for cel-mir-39 finished

creating pdf for cel-mir-40 finished

creating pdf for cel-mir-37 finished

creating pdf for cel-mir-36 finished

creating pdf for cel-mir-38 finished

creating pdf for cel-mir-41 finished

#

得到几个文件,expression_16_19.html,expression_analyses文件夹(里面有很多文件),

iRNAs_expressed_all_samples_16_19.csv

,pdfs_16_19文件夹

~~~~~~~~~~第四步~~~~~~~~~

#在deep sequencing data中鉴定已知和未知的miRNA

miRDeep2.pl reads_collapsed.fa cel_cluster.fa reads_collapsed_vs_genome.arf

mature_ref_this_species.fa mature_ref_other_species.fa precursors_ref_this_species.fa -t C.elegans

2> report.log

# reads_collapsed.fa是经过mapper.pl处理的reads。

# cel_cluster.fa是基因组文件

# reads_collapsed_vs_genome.arf mapping的结果

# mature_ref_this_species.fa研究物种的成熟miRNA文件,miRBase有下载

# mature_ref_other_species.fa其他物种相关的成熟miRNA文件,miRBase有下载

# precursors_ref_this_species.fa研究物种miRNA前体的文件,miRBase有下载

# 如果你只有reads,arf文件,genome文件,其他文件没有,需要这样表示miRNAs_ref/none miRNAs_other/none

precursors/none,本物种的成熟miRNA无,其他相关物种也无,更没有前体。

参数说明

-t 物种

2> repot.log表示将所有的步骤输出到report.log文件中

# 屏幕显示

#####################################

#                                   #

# miRDeep2                          #

#                                   #

# last change: 07/07/2011           #

#                                   #

#####################################

miRDeep2 started at 19:44:43

#Starting miRDeep2

#testing input files

#Quantitation of known miRNAs in data

#parsing genome mappings

#excising precursors

#preparing signature

#folding precursors

#computing randfold p-values

#running miRDeep core algorithm

#running permuted controls

#doing survey of accuracy

#producing graphic results

miRDeep runtime:

started: 19:44:43

ended: 19:46:15

total:0h:1m:32s

~~~~~~~~~~第五步~~~~~~~~~

# 浏览结果

用浏览器打开.html文件

注意,cel-miR-37预测了两次。因为这个位点的两个潜在的前体可以折叠成发卡结构。然而,注释的发卡结构得分远远

高于未注释的发卡结构(miRDeep2 score 6.1e+4 vs. -0.2)

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

~~~~~~~~~~~~~~附注1~~~~~~~~~~~~~~~~~~

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

######加v###屏幕上输出的结果如下####

discarding sequences with non-canonical letters

clipping 3' adapters

discarding short reads

collapsing reads

mapping reads to genome index

# reads processed: 1609

# reads with at least one reported alignment: 470 (29.21%)

# reads that failed to align: 1139 (70.79%)

Reported 480 alignments to 1 output stream(s)

trimming unmapped nts in the 3' ends

######不加v###屏幕上输出的结果如下####

# reads processed: 1609

# reads with at least one reported alignment: 470 (29.21%)

# reads that failed to align: 1139 (70.79%)

Reported 480 alignments to 1 output stream(s)

~~~~~~~~~~~~~~附注1~~~~~~~~~~~~~~~~~~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容