一、认识转录组

RNA作为基因组和蛋白质组之间的链接部分，是分子生物学中独特的核心活动。
转录组测序是分析某一组织中的全部RNA的表达量，包括mRNA,rRNA,tRNA,lncRNA等。
生物体中总RNA=（～90%）rRNA+ （1～2%）mRNA+（8～9%）其他RNA

1.全转录组测序流程

image.png

2.转录组上游分析流程

①在Linux中下载miniconda，相当于是Windows环境下的软件安装器，我们需要的大部分软件都可以在这里面进行下载。

wget -c https://mirrors.bfsu.edu.cn/anaconda/miniconda/Miniconda3-py39_4.9.2-Linux-x86_64.sh#清华源下载miniconda
bash Miniconda3-py39_4.9.2-Linux-x86_64.sh #安装miniconda
source ~/.bashrc  #安装好后运行
#配置镜像，只需要配置一次
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes
#配置小环境，miniconda，（一定要配置，可以在自己的小环境中随便造）
conda create -n rnaseq
conda activate rnaseq
#可以在这个环境中下载上游分析软件，如上图中展示的软件，FastQC、Trim Galore。

② 下载分析软件
转录组分析需要用到的软件列表
质控：fastqc, multiqc, trimmomatic, cutadapt, trim-galore
比对：star, hisat2, bowtie2, tophat, bwa, subread
计数：htseq, bedtools, deeptools, salmon

 conda search packagename #安装之前先检索是否存在该软件,可以在conda中查找。
 conda install -y sra-tools  
 conda install -y trimmomatic
conda install -y cutadapt multiqc #
conda install -y trim-galore #
conda install -y star hisat2 bowtie2  #
conda install -y subread tophat htseq bedtools deeptools  #
conda install -y salmon
conda deactivate #注销当前的rnaseq环境

③ 分析常见步骤

image.png

根据上图显示主要分为以下四步：
a.数据下载
b.质控过滤（质控前用fastqc与multiqc初看数据效果、trimmgalore进行过滤与fastqc以及multiqc查看质控后的效果）
c.Hisat2比对
d.feature定量
接下来，我们主要分析一下绵羊垂体的转录组测序文件。
链接地址：

image.png

点击Accession List 即可获得下载的SRA_Acc_list，准备用其进行数据下载。

image.png

下载后的TXT文本如上图所示。

下载文件

将文本上传到服务器中，就可以在服务器中下载这些测序原始文件了。

#创建download环境
codna creat download
conda activate download
conda install sra-tools #prefetch 包含于此软件中
cat SRR_Acc_List.txt|while read id ;do(prefetch -x 100G $id);done #批次下载该文件

下载好SRA文件后，我们需要将SRA文件转换为fastq文件并将其压缩为fastq.gz

# 1.批量将SRA文件转换fastq文件
ls SRR* | while read id;do ( nohup fasterq-dump -O ./ --split-files -e 2 ./$id --include-technical & );done
# 2.批量将fastq文件压缩成fastq.gz文件
ls *fastq |while read id;do (nohup gzip $id &);done

查看下载好的SRR文件

ls -lh  SRR*|cut -d" " -f 5-
66 2月  17 18:44 SRR_Acc_List.txt
SRR8569379:6.7G 2月  18 02:40 SRR8569379.sra
SRR8569380:6.7G 2月  18 02:50 SRR8569380.sra
SRR8569381:7.8G 2月  18 03:00 SRR8569381.sra
SRR8569382:11G 2月  18 03:13 SRR8569382.sra
SRR8569383:8.8G 2月  18 03:26 SRR8569383.sra
SRR8569384:8.3G 2月  18 03:38 SRR8569384.sra

数据质控

# 一：质控前的初步看一下测序数据质量：fastqc与multiqc
# 1.激活专门用于RNAseq数据处理的小环境rnaseq,进行fastqc与multiqc
conda activate rnaseq #激活转录组测序数据处理的小环境
# 2.先进行fastqc
nohup fastqc -t 6 -o ./ SRR*.fastq.gz >qc.log &  
# 3.对fastqc后的zip数据进行multiqc，此步骤是将多了fastqc质检文件整合起来。
nohup multiqc ./*.zip -o ./ > ./multiqc.log &
# 二: trimmgalore质控 对原始测序数据进行质控
ls *gz |while read id;do (nohup trim_galore  -q 25 --phred33 --length 36 --stringency 3 --paired  -o ./  $id & );done #多个文件进行循环操作

trim_galore -q 25 -phred33 --length 36 -e 0.1 -stringency 3 --paired -o /home/data/t160305/miniconda3/envs/download/SRR8569383/clean  SRR8569383_1.fastq.gz SRR8569383_2.fastq.gz#单个文件进行运行

## 三:质控后数据也需要用fastqc与multiqc看看质控效果，对比与之前的未质控时的差异。
# 01批量fastqc
nohup fastqc -t 12 -o ./ SRR*_trimmed.fq.gz >qc_trimmed.log & 
#出现“_appending output to 'nohup.out'”时代表已在后台运行
# 02开始multiqc
nohup multiqc *.zip -o ./ > ./multiqc_t.log &
#查看质控后过滤的数据
$ ls -lh  *fq.gz|cut -d" " -f 5-

构建绵羊参考基因组索引

#NCBI上下载参考基因组以及注释文件
#在miniconda中创建文件夹
mkdir index |cd index
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/016/772/045/GCF_016772045.1_ARS-UI_Ramb_v2.0/GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/016/772/045/GCF_016772045.1_ARS-UI_Ramb_v2.0/GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.gff.gz
#解压文件
gunzip GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
gunzip GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.gff.gz
# 创建索引
hisat2-build -p 2 /home/data/t160305/miniconda3/index/GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna ovis.v2

比对

在过滤完测序原始文件，并且搭建好绵羊的参考基因组之后，即可对测序数据进行比对。

ls *fq.gz|while read id;do 
 gtf='$HOME/database/GRCm39.106/Mus_musculus.GRCm39.106.chr.gtf '
 hisat_index="$HOME/database/GRCm39.106/Hisat2Index"
 nohup sh -c " hisat2 -p 2 -x ${hisat_index}  -1 ${id}_1_val.fq.gz -2 ${id}_2_val.fq.gz  2>${id%%_*}.log  | samtools sort -@ 2 -o ${id%%_*}.bam  " & 
done

定量

完成以上所有步骤后，最后一步即是定量。

gtf=$HOME/database/GRCm39.106/Mus_musculus.GRCm39.106.chr.gtf
nohup featureCounts -T 5 -p -t exon -g gene_id  -a $gtf \
-o  all.id.txt  *bam  1>counts.id.log 2>&1 &
# 这样就获得了咱们心心念念的Ensenmble count矩阵了

至此我们转录组上游的分析即完成了，得到的count数据即可通过R语言进行下游分析。
心得：在看教程的时候，大家一定要下载自己相关研究的数据进行一步步跟着，有什么问题可以上网查找。相信大家跟着教程走下来很快就能上手了。
下一步计划，返校之后整理单细胞转录组的下游分析流程。

转录组测序分析-上游分析

转录组测序分析-上游分析

一、认识转录组

1.全转录组测序流程

2.转录组上游分析流程

下载文件

数据质控

比对

定量

推荐阅读更多精彩内容