2020-01-23 RSEM转录组RNA-seq测序分析实操

测序数据的质控和过滤

见上一篇论文 https://www.jianshu.com/p/0a8461b1ea7a

本文涉及到的软件

RSEM软件包 RSEM (RNA-Seq by Expectation-Maximization)
http://deweylab.github.io/RSEM/

安装:
conda install -c bioconda rsem

Trinity软件包

安装:
conda install -c bioconda trinity

正文1.构建参考基因组

a. 参考基因组.fa及注释文件.gtf的下载
ensembl : ftp://ftp.ensembl.org/pub (我个人首选)
NCBI : ftp://ftp.ncbi.nih.gov/genomes/
UCSC:ftp://hgdownload.soe.ucsc.edu/goldenPath

注意:1. 参考基因组尽量下载dna.primary_assembly.fa.gz(仅包含组装到染色体上的序列),如果没有就下载dna.toplevel.fa.gz(包含未组装到染色体上的scaffold),如下图人的参考基因组:
人参考基因组:ftp://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/
小鼠参考基因组:ftp://ftp.ensembl.org/pub/release-99/fasta/mus_musculus/dna/
大鼠参考基因组:ftp://ftp.ensembl.org/pub/release-99/fasta/rattus_norvegicus/dna/

image.png

2. 注释文件下载要与参考基因组同一个网站,要不然后边构建参考基因组时会报错...,下载文件最好是chr.gtf.gz结尾.
人注释文件 :ftp://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens
小鼠注释文件:ftp://ftp.ensembl.org/pub/release-99/gtf/mus_musculus
大鼠注释文件:ftp://ftp.ensembl.org/pub/release-99/gtf/rattus_norvegicus
image.png

下载完成后解压,命令:“gunzip 文件.gz“.


image.png

b. 构建参考基因组(以大鼠为例)
新建一个目录,名字叫ref,将构建好的索引放在这个目录中。

rsem-prepare-reference --gtf /public/home/huangshsh/zxg/ref_genome/Rattus_norvegicus.Rnor_6.0.99.chr.gtf \
                                         --bowtie2 \
                                          -p 16   \
                                       /public/home/huangshsh/zxg/ref_genome/Rattus_norvegicus.Rnor_6.0.dna.toplevel.fa  \
                                               ./rn6
#--gtf 参数后跟解压后的注释文件
#--bowtie2 利用bowtie2构建索引,默认bowtie2在path中,若没有后边要跟bowtie的路径
#-p  参考基因组构建索引的线程数,根据自己电脑实际情况来
#再跟上解压后的参考基因组
#再跟上参考基因组索引的前缀(rn6 )

索引构建成功后如下图


image.png

若出现错误


image.png

这表明注释文件和参考基因组不是同一来源,要换成同一来源的才行。

正文2.比对和表达定量

参考基因组索引构建成功后,对每个样本进行比对和表达定量,以W2BR样品为例

rsem-calculate-expression --strandedness reverse \
                                            --paired-end \
                                              -p 16  \
                                           --bowtie2  \
                                          ../cleandata/W2BR_P_R1.fq.gz  \
                                         ../cleandata/W2BR_P_R2.fq.gz   \
                                          /public/home/huangshsh/zxg/rat_trans_nn/rsem/ref/rn6 \
                                         W2BR


#--strandedness reverse  建库方式,一般为illumina的方式,具体自己查资料
#--paired-end  双尾测序
# -p 16程序运行的线程数
# --bowtie2  比对使用bowtie2
#../cleandata/W2BR_P_R1.fq.gz 第一个测序文件
#../cleandata/W2BR_P_R2.fq.gz 第二个测序文件
# /public/home/huangshsh/zxg/rat_trans_nn/rsem/ref/rn6 参考基因组文件位置.../ref/,参考基因组索引前缀rn6
#W2BR 结果文件前缀(这个参数很容易遗漏,会报错的) 

比对要一会,完成后结果如下:


image.png

一个文件夹和两个文件,其中genes.results是以基因为基础的,包含了gene_id,对应transcript_id, count,TPM和FPKM等信息。
isoforms.results是转录本为基础的

正文3.生成表达量矩阵文件

利用trinity安装包中的util/abundance_estimates_to_matrix.pl(一个perl脚本)

ls *.genes.results > genes.quant_files.txt   #将所有的genes.results文件的名字存到genes.quant_files.txt ,当成一个目录后边要用

路径到trinity安装包下/util/abundance_estimates_to_matrix.pl \
      --est_method RSEM \
      --cross_sample_norm TMM \
       --gene_trans_map none  \
      --quant_files genes.quant_files.txt \
      --out_prefix rsem_matrix


#      or  /public/home/huangshsh/zxg/software/trinityrnaseq-2.9.0/util/abundance_estimates_to_matrix.pl --est_method <method> --quant_files file.listing_target_files.txt

#      Note, if only a single input file is given, it's expected to contain the paths to all the target abundance estimation files.

# Required:
#  --est_method <string>           RSEM|eXpress|kallisto|salmon  (needs to know what format to expect)
#  --gene_trans_map <string>           the gene-to-transcript mapping file. (if you don't want gene estimates, indicate 'none'.
  #                                                        可以从gtf中提取转录本信息,最后做成的文件要转录本-基因一一对应,转录本一定要在前 
   #                                                        边,两者用\t分隔。
# Options:
#  --cross_sample_norm <string>         TMM|UpperQuartile|none   (default: TMM)
#  --name_sample_by_basedir             name sample column by dirname instead of filename
#      --basedir_index <int>            default(-2)
#  --out_prefix <string>                default: value for --est_method 前缀随意命名,默认为RSEM
#  --quant_files <string>              file containing a list of all the target files.


结果文件如下图


image.png

我们后续要用到第一个,rsem_matrix.gene.counts.matrix

正文4.差异表达基因分析

要用到R包里边的DESeq2或edgeR,所以R里边要提前装好DESeq2包或者edgeR包。
脚本命令用到trinity软件目录下的/Analysis/DifferentialExpression/run_DE_analysis.pl,所用到的脚本参数如下:

image.png
$TRINITY_HOME=~/zxg/software/trinityrnaseq-2.9.0    #trinity的安装路径

perl $TRINITY_HOME/Analysis/DifferentialExpression/run_DE_analysis.pl \
        --matrix ~/zxg/rat_trans_nn/rsem/rsem_matrix.gene.counts.matrix  \
        --method DESeq2 \
        --samples_file sample.list.txt

##sample.list.txt格式如上图所示 
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容