转录组上游流程

一.安装miniconda/annaconda

1.下载

wget -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda2-4.5.11-Linux-x86_64.sh

2.安装

bash Miniconda2-4.5.11-Linux-x86_64.sh(运行)
source ~/.bashrc (激活配置)

3.确认安装成功

调出帮助文档

fastqc -t 5 -o ~/ ~/RNA_workflow/input/fastq/*.fastq.gz

4.配置镜像(安装一次配置一次即可)

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda conda config --set show_channel_urls yes

二、创建小环境

创建

conda create -n RNA python=2

小环境的取名随意


image.png

三、在该环境下安装各种软件以及下载各种数据

软件安装

1.fastqc 、fastp、SortMeRNA、star、samtools、 subread(featureCounts整合进subread包里)

conda install -y samtools

2.安装aspera软件,可提高下载速度

##下载
wget -c https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
##解压
tar zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
##运行
bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh

数据准备

下载参考基因组

可以从NCBI、gencode、Ensembel上下载

1.从NCBI上下载参考基因组和注释文件
wget  -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/635/GCF_000001635.26_GRCm38.p6/GCF_000001635.26_GRCm38.p6_ge
nomic.fna.gz
wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/635/GCF_000001635.26_GRCm38.p6/GCF_000001635.26_GRCm38.p6_ge
nomic.gff.gz

解压缩

gunzip GCF_000001635.26_GRCm38.p6_genomic.fna.gz
gunzip GCF_000001635.26_GRCm38.p6_genomic.gff.gz

从NCBI上下载的参考基因组是fna格式,注释文件是gff格式

2.从gencode上下载参考基因组和注释文件

gencode网址:https://www.gencodegenes.org/

wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M22/gencode.vM22.annotation.gtf.gz 

wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M22/GRCm38.p6.genome.fa.gz

解压缩

3.从ensemble上下载参考基因组和注释文件
wget -c ftp://ftp.ensembl.org/pub/release-96/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.toplevel.fa.gz
wget -c ftp://ftp.ensembl.org/pub/release-96/gtf/mus_musculus/Mus_musculus.GRCm38.96.gtf.gz

解压缩

下载数据
根据文章GSE号下载SRA数据

得到一个只有SRR号的文本文档

image.png

单个下载命令如下

prefetch SRR2143347 -O ~

循环命令

cat SRR_Acc_List .txt | while read id; do (prefetch ${id} -O ~);done
将SRA数据转换成fastq格式
fastq-dump --gzip --split-3 -O ~ ~/RNA_workflow/input/SRA/SRR2124981/SRR2124981.sra

循环命令

cat SRR_Acc_List.txt | while read id; do (fastq-dump --gzip --split-3 -O ~/ ${id}.sra);done

步骤一 检测数据质量(fastqc)

fastqc -o ~/RNA_workflow/output/fastqc ~/RNA_workflow/input/fastq/SRR2124980_1.fastq.gz

步骤二 比对到参考基因组(star)

1建立索引

STAR \
--runMode genomeGenerate \
--genomeDir ./star_index \
--genomeFastaFiles ./GRCm38.p6.genome.fa\
--sjdbGTFfile ./gencode.vM21.annotation.gtf \ 
--runThreadN 8

2比对

$ STAR \
--genomeDir ~/REF_genome/mouse/star_index \
--readFilesIn ~/RNA_workflow/input/fastq/SRR2124983_1.fastq.gz ~/RNA_workflow/input/fastq/SRR2124983_2.fastq.gz \
--readFilesCommand zcat \
--runThreadN 8 \
‐‐outSAMtype BAM SortedByCoordinate \
--quantMode GeneCounts \
--outFileNamePrefix ./SRR2124983
image.png
image.png
image.png

outSAMtype BAM SortedByCoordinate 此参数不管用,可以用samtools处理

步骤三 计算表达量(featureCounts)

$ featureCounts -t exon -g gene_id -T 10 \
-a ~/REF_genome/mouse/gencode.vM21.annotation.gtf \
-o ~/RNA_workflow/output/results/all.id.txt \
./*.sort.bam

image.png
image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容