一、认识转录组
RNA作为基因组和蛋白质组之间的链接部分,是分子生物学中独特的核心活动。
转录组测序是分析某一组织中的全部RNA的表达量,包括mRNA,rRNA,tRNA,lncRNA等。
生物体中总RNA=(~90%)rRNA+ (1~2%)mRNA+(8~9%)其他RNA
1.全转录组测序流程
2.转录组上游分析流程
①在Linux中下载miniconda,相当于是Windows环境下的软件安装器,我们需要的大部分软件都可以在这里面进行下载。
wget -c https://mirrors.bfsu.edu.cn/anaconda/miniconda/Miniconda3-py39_4.9.2-Linux-x86_64.sh#清华源下载miniconda
bash Miniconda3-py39_4.9.2-Linux-x86_64.sh #安装miniconda
source ~/.bashrc #安装好后运行
#配置镜像,只需要配置一次
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes
#配置小环境,miniconda,(一定要配置,可以在自己的小环境中随便造)
conda create -n rnaseq
conda activate rnaseq
#可以在这个环境中下载上游分析软件,如上图中展示的软件,FastQC、Trim Galore。
② 下载分析软件
转录组分析需要用到的软件列表
质控:fastqc, multiqc, trimmomatic, cutadapt, trim-galore
比对:star, hisat2, bowtie2, tophat, bwa, subread
计数:htseq, bedtools, deeptools, salmon
conda search packagename #安装之前先检索是否存在该软件,可以在conda中查找。
conda install -y sra-tools
conda install -y trimmomatic
conda install -y cutadapt multiqc #
conda install -y trim-galore #
conda install -y star hisat2 bowtie2 #
conda install -y subread tophat htseq bedtools deeptools #
conda install -y salmon
conda deactivate #注销当前的rnaseq环境
③ 分析常见步骤
根据上图显示主要分为以下四步:
a.数据下载
b.质控过滤(质控前用fastqc与multiqc初看数据效果、trimmgalore进行过滤与fastqc以及multiqc查看质控后的效果)
c.Hisat2比对
d.feature定量
接下来,我们主要分析一下绵羊垂体的转录组测序文件。
链接地址:
点击Accession List 即可获得下载的SRA_Acc_list,准备用其进行数据下载。
下载后的TXT文本如上图所示。
下载文件
将文本上传到服务器中,就可以在服务器中下载这些测序原始文件了。
#创建download环境
codna creat download
conda activate download
conda install sra-tools #prefetch 包含于此软件中
cat SRR_Acc_List.txt|while read id ;do(prefetch -x 100G $id);done #批次下载该文件
下载好SRA文件后,我们需要将SRA文件转换为fastq文件并将其压缩为fastq.gz
# 1.批量将SRA文件转换fastq文件
ls SRR* | while read id;do ( nohup fasterq-dump -O ./ --split-files -e 2 ./$id --include-technical & );done
# 2.批量将fastq文件压缩成fastq.gz文件
ls *fastq |while read id;do (nohup gzip $id &);done
查看下载好的SRR文件
ls -lh SRR*|cut -d" " -f 5-
66 2月 17 18:44 SRR_Acc_List.txt
SRR8569379:6.7G 2月 18 02:40 SRR8569379.sra
SRR8569380:6.7G 2月 18 02:50 SRR8569380.sra
SRR8569381:7.8G 2月 18 03:00 SRR8569381.sra
SRR8569382:11G 2月 18 03:13 SRR8569382.sra
SRR8569383:8.8G 2月 18 03:26 SRR8569383.sra
SRR8569384:8.3G 2月 18 03:38 SRR8569384.sra
数据质控
# 一:质控前的初步看一下测序数据质量:fastqc与multiqc
# 1.激活专门用于RNAseq数据处理的小环境rnaseq,进行fastqc与multiqc
conda activate rnaseq #激活转录组测序数据处理的小环境
# 2.先进行fastqc
nohup fastqc -t 6 -o ./ SRR*.fastq.gz >qc.log &
# 3.对fastqc后的zip数据进行multiqc,此步骤是将多了fastqc质检文件整合起来。
nohup multiqc ./*.zip -o ./ > ./multiqc.log &
# 二: trimmgalore质控 对原始测序数据进行质控
ls *gz |while read id;do (nohup trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired -o ./ $id & );done #多个文件进行循环操作
trim_galore -q 25 -phred33 --length 36 -e 0.1 -stringency 3 --paired -o /home/data/t160305/miniconda3/envs/download/SRR8569383/clean SRR8569383_1.fastq.gz SRR8569383_2.fastq.gz#单个文件进行运行
## 三:质控后数据也需要用fastqc与multiqc看看质控效果,对比与之前的未质控时的差异。
# 01批量fastqc
nohup fastqc -t 12 -o ./ SRR*_trimmed.fq.gz >qc_trimmed.log &
#出现“_appending output to 'nohup.out'”时代表已在后台运行
# 02开始multiqc
nohup multiqc *.zip -o ./ > ./multiqc_t.log &
#查看质控后过滤的数据
$ ls -lh *fq.gz|cut -d" " -f 5-
构建绵羊参考基因组索引
#NCBI上下载参考基因组以及注释文件
#在miniconda中创建文件夹
mkdir index |cd index
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/016/772/045/GCF_016772045.1_ARS-UI_Ramb_v2.0/GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/016/772/045/GCF_016772045.1_ARS-UI_Ramb_v2.0/GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.gff.gz
#解压文件
gunzip GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
gunzip GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.gff.gz
# 创建索引
hisat2-build -p 2 /home/data/t160305/miniconda3/index/GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna ovis.v2
比对
在过滤完测序原始文件,并且搭建好绵羊的参考基因组之后,即可对测序数据进行比对。
ls *fq.gz|while read id;do
gtf='$HOME/database/GRCm39.106/Mus_musculus.GRCm39.106.chr.gtf '
hisat_index="$HOME/database/GRCm39.106/Hisat2Index"
nohup sh -c " hisat2 -p 2 -x ${hisat_index} -1 ${id}_1_val.fq.gz -2 ${id}_2_val.fq.gz 2>${id%%_*}.log | samtools sort -@ 2 -o ${id%%_*}.bam " &
done
定量
完成以上所有步骤后,最后一步即是定量。
gtf=$HOME/database/GRCm39.106/Mus_musculus.GRCm39.106.chr.gtf
nohup featureCounts -T 5 -p -t exon -g gene_id -a $gtf \
-o all.id.txt *bam 1>counts.id.log 2>&1 &
# 这样就获得了咱们心心念念的Ensenmble count矩阵了
至此我们转录组上游的分析即完成了,得到的count数据即可通过R语言进行下游分析。
心得:在看教程的时候,大家一定要下载自己相关研究的数据进行一步步跟着,有什么问题可以上网查找。相信大家跟着教程走下来很快就能上手了。
下一步计划,返校之后整理单细胞转录组的下游分析流程。