转录组上游流程

一.安装miniconda/annaconda

1.下载

wget -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda2-4.5.11-Linux-x86_64.sh

2.安装

bash Miniconda2-4.5.11-Linux-x86_64.sh（运行）
source ~/.bashrc （激活配置）

3.确认安装成功

调出帮助文档

fastqc -t 5 -o ~/ ~/RNA_workflow/input/fastq/*.fastq.gz

4.配置镜像（安装一次配置一次即可）

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda conda config --set show_channel_urls yes

二、创建小环境

创建

conda create -n RNA python=2

小环境的取名随意

image.png

三、在该环境下安装各种软件以及下载各种数据

软件安装

1.fastqc 、fastp、SortMeRNA、star、samtools、 subread（featureCounts整合进subread包里）

conda install -y samtools

2.安装aspera软件，可提高下载速度

##下载
wget -c https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
##解压
tar zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
##运行
bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh

数据准备

下载参考基因组

可以从NCBI、gencode、Ensembel上下载

1.从NCBI上下载参考基因组和注释文件

wget  -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/635/GCF_000001635.26_GRCm38.p6/GCF_000001635.26_GRCm38.p6_ge
nomic.fna.gz
wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/635/GCF_000001635.26_GRCm38.p6/GCF_000001635.26_GRCm38.p6_ge
nomic.gff.gz

解压缩

gunzip GCF_000001635.26_GRCm38.p6_genomic.fna.gz
gunzip GCF_000001635.26_GRCm38.p6_genomic.gff.gz

从NCBI上下载的参考基因组是fna格式，注释文件是gff格式

2.从gencode上下载参考基因组和注释文件

gencode网址：https://www.gencodegenes.org/

wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M22/gencode.vM22.annotation.gtf.gz 

wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M22/GRCm38.p6.genome.fa.gz

解压缩

3.从ensemble上下载参考基因组和注释文件

wget -c ftp://ftp.ensembl.org/pub/release-96/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.toplevel.fa.gz
wget -c ftp://ftp.ensembl.org/pub/release-96/gtf/mus_musculus/Mus_musculus.GRCm38.96.gtf.gz

解压缩

下载数据

根据文章GSE号下载SRA数据

得到一个只有SRR号的文本文档

image.png

单个下载命令如下

prefetch SRR2143347 -O ~

循环命令

cat SRR_Acc_List .txt | while read id; do (prefetch ${id} -O ~);done

将SRA数据转换成fastq格式

fastq-dump --gzip --split-3 -O ~ ~/RNA_workflow/input/SRA/SRR2124981/SRR2124981.sra

循环命令

cat SRR_Acc_List.txt | while read id; do (fastq-dump --gzip --split-3 -O ~/ ${id}.sra);done

步骤一检测数据质量(fastqc)

fastqc -o ~/RNA_workflow/output/fastqc ~/RNA_workflow/input/fastq/SRR2124980_1.fastq.gz

步骤二比对到参考基因组（star）

1建立索引

STAR \
--runMode genomeGenerate \
--genomeDir ./star_index \
--genomeFastaFiles ./GRCm38.p6.genome.fa\
--sjdbGTFfile ./gencode.vM21.annotation.gtf \ 
--runThreadN 8

2比对

$ STAR \
--genomeDir ~/REF_genome/mouse/star_index \
--readFilesIn ~/RNA_workflow/input/fastq/SRR2124983_1.fastq.gz ~/RNA_workflow/input/fastq/SRR2124983_2.fastq.gz \
--readFilesCommand zcat \
--runThreadN 8 \
‐‐outSAMtype BAM SortedByCoordinate \
--quantMode GeneCounts \
--outFileNamePrefix ./SRR2124983

image.png

outSAMtype BAM SortedByCoordinate 此参数不管用，可以用samtools处理

步骤三计算表达量（featureCounts）

$ featureCounts -t exon -g gene_id -T 10 \
-a ~/REF_genome/mouse/gencode.vM21.annotation.gtf \
-o ~/RNA_workflow/output/results/all.id.txt \
./*.sort.bam

image.png

转录组上游流程

转录组上游流程

一.安装miniconda/annaconda

1.下载

2.安装

3.确认安装成功

4.配置镜像（安装一次配置一次即可）

二、创建小环境

创建

三、在该环境下安装各种软件以及下载各种数据

软件安装

数据准备

下载参考基因组

1.从NCBI上下载参考基因组和注释文件

2.从gencode上下载参考基因组和注释文件

3.从ensemble上下载参考基因组和注释文件

下载数据

根据文章GSE号下载SRA数据

将SRA数据转换成fastq格式

步骤一检测数据质量(fastqc)

步骤二比对到参考基因组（star）

1建立索引

2比对

步骤三计算表达量（featureCounts）

相关阅读更多精彩内容

友情链接更多精彩内容

转录组上游流程

一.安装miniconda/annaconda

1.下载

2.安装

3.确认安装成功

4.配置镜像（安装一次配置一次即可）

二、创建小环境

创建

三、在该环境下安装各种软件以及下载各种数据

软件安装

数据准备

下载参考基因组

1.从NCBI上下载参考基因组和注释文件

2.从gencode上下载参考基因组和注释文件

3.从ensemble上下载参考基因组和注释文件

下载数据

根据文章GSE号下载SRA数据

将SRA数据转换成fastq格式

步骤一 检测数据质量(fastqc)

步骤二 比对到参考基因组（star）

1建立索引

2比对

步骤三 计算表达量（featureCounts）

相关阅读更多精彩内容

友情链接更多精彩内容

步骤一检测数据质量(fastqc)

步骤二比对到参考基因组（star）

步骤三计算表达量（featureCounts）