一.安装miniconda/annaconda
1.下载
wget -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda2-4.5.11-Linux-x86_64.sh
2.安装
bash Miniconda2-4.5.11-Linux-x86_64.sh(运行)
source ~/.bashrc (激活配置)
3.确认安装成功
调出帮助文档
fastqc -t 5 -o ~/ ~/RNA_workflow/input/fastq/*.fastq.gz
4.配置镜像(安装一次配置一次即可)
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda conda config --set show_channel_urls yes
二、创建小环境
创建
conda create -n RNA python=2
小环境的取名随意
image.png
三、在该环境下安装各种软件以及下载各种数据
软件安装
1.fastqc 、fastp、SortMeRNA、star、samtools、 subread(featureCounts整合进subread包里)
conda install -y samtools
2.安装aspera软件,可提高下载速度
##下载
wget -c https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
##解压
tar zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
##运行
bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
数据准备
下载参考基因组
可以从NCBI、gencode、Ensembel上下载
1.从NCBI上下载参考基因组和注释文件
wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/635/GCF_000001635.26_GRCm38.p6/GCF_000001635.26_GRCm38.p6_ge
nomic.fna.gz
wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/635/GCF_000001635.26_GRCm38.p6/GCF_000001635.26_GRCm38.p6_ge
nomic.gff.gz
解压缩
gunzip GCF_000001635.26_GRCm38.p6_genomic.fna.gz
gunzip GCF_000001635.26_GRCm38.p6_genomic.gff.gz
从NCBI上下载的参考基因组是fna格式,注释文件是gff格式
2.从gencode上下载参考基因组和注释文件
gencode网址:https://www.gencodegenes.org/
wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M22/gencode.vM22.annotation.gtf.gz
wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M22/GRCm38.p6.genome.fa.gz
解压缩
3.从ensemble上下载参考基因组和注释文件
wget -c ftp://ftp.ensembl.org/pub/release-96/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.toplevel.fa.gz
wget -c ftp://ftp.ensembl.org/pub/release-96/gtf/mus_musculus/Mus_musculus.GRCm38.96.gtf.gz
解压缩
下载数据
根据文章GSE号下载SRA数据
得到一个只有SRR号的文本文档
image.png
单个下载命令如下
prefetch SRR2143347 -O ~
循环命令
cat SRR_Acc_List .txt | while read id; do (prefetch ${id} -O ~);done
将SRA数据转换成fastq格式
fastq-dump --gzip --split-3 -O ~ ~/RNA_workflow/input/SRA/SRR2124981/SRR2124981.sra
循环命令
cat SRR_Acc_List.txt | while read id; do (fastq-dump --gzip --split-3 -O ~/ ${id}.sra);done
步骤一 检测数据质量(fastqc)
fastqc -o ~/RNA_workflow/output/fastqc ~/RNA_workflow/input/fastq/SRR2124980_1.fastq.gz
步骤二 比对到参考基因组(star)
1建立索引
STAR \
--runMode genomeGenerate \
--genomeDir ./star_index \
--genomeFastaFiles ./GRCm38.p6.genome.fa\
--sjdbGTFfile ./gencode.vM21.annotation.gtf \
--runThreadN 8
2比对
$ STAR \
--genomeDir ~/REF_genome/mouse/star_index \
--readFilesIn ~/RNA_workflow/input/fastq/SRR2124983_1.fastq.gz ~/RNA_workflow/input/fastq/SRR2124983_2.fastq.gz \
--readFilesCommand zcat \
--runThreadN 8 \
‐‐outSAMtype BAM SortedByCoordinate \
--quantMode GeneCounts \
--outFileNamePrefix ./SRR2124983
image.png
image.png
image.png
outSAMtype BAM SortedByCoordinate 此参数不管用,可以用samtools处理
步骤三 计算表达量(featureCounts)
$ featureCounts -t exon -g gene_id -T 10 \
-a ~/REF_genome/mouse/gencode.vM21.annotation.gtf \
-o ~/RNA_workflow/output/results/all.id.txt \
./*.sort.bam
image.png
image.png