转录组测序分析-上游分析

一、认识转录组

RNA作为基因组和蛋白质组之间的链接部分,是分子生物学中独特的核心活动。
转录组测序是分析某一组织中的全部RNA的表达量,包括mRNA,rRNA,tRNA,lncRNA等。
生物体中总RNA=(~90%)rRNA+ (1~2%)mRNA+(8~9%)其他RNA

1.全转录组测序流程

image.png

2.转录组上游分析流程

①在Linux中下载miniconda,相当于是Windows环境下的软件安装器,我们需要的大部分软件都可以在这里面进行下载。

wget -c https://mirrors.bfsu.edu.cn/anaconda/miniconda/Miniconda3-py39_4.9.2-Linux-x86_64.sh#清华源下载miniconda
bash Miniconda3-py39_4.9.2-Linux-x86_64.sh #安装miniconda
source ~/.bashrc  #安装好后运行
#配置镜像,只需要配置一次
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes
#配置小环境,miniconda,(一定要配置,可以在自己的小环境中随便造)
conda create -n rnaseq
conda activate rnaseq
#可以在这个环境中下载上游分析软件,如上图中展示的软件,FastQC、Trim Galore。

② 下载分析软件
转录组分析需要用到的软件列表
质控:fastqc, multiqc, trimmomatic, cutadapt, trim-galore
比对:star, hisat2, bowtie2, tophat, bwa, subread
计数:htseq, bedtools, deeptools, salmon

 conda search packagename #安装之前先检索是否存在该软件,可以在conda中查找。
 conda install -y sra-tools  
 conda install -y trimmomatic
conda install -y cutadapt multiqc #
conda install -y trim-galore #
conda install -y star hisat2 bowtie2  #
conda install -y subread tophat htseq bedtools deeptools  #
conda install -y salmon
conda deactivate #注销当前的rnaseq环境

③ 分析常见步骤


image.png

根据上图显示主要分为以下四步:
a.数据下载
b.质控过滤(质控前用fastqc与multiqc初看数据效果、trimmgalore进行过滤与fastqc以及multiqc查看质控后的效果)
c.Hisat2比对
d.feature定量
接下来,我们主要分析一下绵羊垂体的转录组测序文件。
链接地址:


image.png

点击Accession List 即可获得下载的SRA_Acc_list,准备用其进行数据下载。
image.png

下载后的TXT文本如上图所示。

下载文件

将文本上传到服务器中,就可以在服务器中下载这些测序原始文件了。

#创建download环境
codna creat download
conda activate download
conda install sra-tools #prefetch 包含于此软件中
cat SRR_Acc_List.txt|while read id ;do(prefetch -x 100G $id);done #批次下载该文件

下载好SRA文件后,我们需要将SRA文件转换为fastq文件并将其压缩为fastq.gz

# 1.批量将SRA文件转换fastq文件
ls SRR* | while read id;do ( nohup fasterq-dump -O ./ --split-files -e 2 ./$id --include-technical & );done
# 2.批量将fastq文件压缩成fastq.gz文件
ls *fastq |while read id;do (nohup gzip $id &);done

查看下载好的SRR文件

ls -lh  SRR*|cut -d" " -f 5-
66 2月  17 18:44 SRR_Acc_List.txt
SRR8569379:6.7G 2月  18 02:40 SRR8569379.sra
SRR8569380:6.7G 2月  18 02:50 SRR8569380.sra
SRR8569381:7.8G 2月  18 03:00 SRR8569381.sra
SRR8569382:11G 2月  18 03:13 SRR8569382.sra
SRR8569383:8.8G 2月  18 03:26 SRR8569383.sra
SRR8569384:8.3G 2月  18 03:38 SRR8569384.sra

数据质控

# 一:质控前的初步看一下测序数据质量:fastqc与multiqc
# 1.激活专门用于RNAseq数据处理的小环境rnaseq,进行fastqc与multiqc
conda activate rnaseq #激活转录组测序数据处理的小环境
# 2.先进行fastqc
nohup fastqc -t 6 -o ./ SRR*.fastq.gz >qc.log &  
# 3.对fastqc后的zip数据进行multiqc,此步骤是将多了fastqc质检文件整合起来。
nohup multiqc ./*.zip -o ./ > ./multiqc.log &
# 二: trimmgalore质控 对原始测序数据进行质控
ls *gz |while read id;do (nohup trim_galore  -q 25 --phred33 --length 36 --stringency 3 --paired  -o ./  $id & );done #多个文件进行循环操作

trim_galore -q 25 -phred33 --length 36 -e 0.1 -stringency 3 --paired -o /home/data/t160305/miniconda3/envs/download/SRR8569383/clean  SRR8569383_1.fastq.gz SRR8569383_2.fastq.gz#单个文件进行运行

## 三:质控后数据也需要用fastqc与multiqc看看质控效果,对比与之前的未质控时的差异。
# 01批量fastqc
nohup fastqc -t 12 -o ./ SRR*_trimmed.fq.gz >qc_trimmed.log & 
#出现“_appending output to 'nohup.out'”时代表已在后台运行
# 02开始multiqc
nohup multiqc *.zip -o ./ > ./multiqc_t.log &
#查看质控后过滤的数据
$ ls -lh  *fq.gz|cut -d" " -f 5-

构建绵羊参考基因组索引

#NCBI上下载参考基因组以及注释文件
#在miniconda中创建文件夹
mkdir index |cd index
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/016/772/045/GCF_016772045.1_ARS-UI_Ramb_v2.0/GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/016/772/045/GCF_016772045.1_ARS-UI_Ramb_v2.0/GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.gff.gz
#解压文件
gunzip GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
gunzip GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.gff.gz
# 创建索引
hisat2-build -p 2 /home/data/t160305/miniconda3/index/GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna ovis.v2

比对

在过滤完测序原始文件,并且搭建好绵羊的参考基因组之后,即可对测序数据进行比对。

ls *fq.gz|while read id;do 
 gtf='$HOME/database/GRCm39.106/Mus_musculus.GRCm39.106.chr.gtf '
 hisat_index="$HOME/database/GRCm39.106/Hisat2Index"
 nohup sh -c " hisat2 -p 2 -x ${hisat_index}  -1 ${id}_1_val.fq.gz -2 ${id}_2_val.fq.gz  2>${id%%_*}.log  | samtools sort -@ 2 -o ${id%%_*}.bam  " & 
done

定量

完成以上所有步骤后,最后一步即是定量。

gtf=$HOME/database/GRCm39.106/Mus_musculus.GRCm39.106.chr.gtf
nohup featureCounts -T 5 -p -t exon -g gene_id  -a $gtf \
-o  all.id.txt  *bam  1>counts.id.log 2>&1 &
# 这样就获得了咱们心心念念的Ensenmble count矩阵了

至此我们转录组上游的分析即完成了,得到的count数据即可通过R语言进行下游分析。
心得:在看教程的时候,大家一定要下载自己相关研究的数据进行一步步跟着,有什么问题可以上网查找。相信大家跟着教程走下来很快就能上手了。
下一步计划,返校之后整理单细胞转录组的下游分析流程。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容