参考基因组下载和构建STAR索引(小鼠)

0. STAR下载

  • 下载2.6.1b版本的STAR wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
  • 文件解压tar -xzf 2.6.1b.tar.gz
  • 进入文件夹 cd STAR-2.6.1b/source/
  • 软件安装 make STAR

1. 创建reference目录

这里下载的参考基因组为ensemble的 小鼠 参考基因组,最好单独建立一个文件夹,后续 解压缩建立索引输出文件 都存放在该目录。
参考命令行如下:
mkdir –p references/Ensembl/mouse/
cd references/Ensembl/mouse/

2. wget下载压缩包

默认当前路径为*/references/Ensembl/mouse/;
命令如下:

  • fasta文件压缩包:
    wget ftp://ftp.ensembl.org/pub/release-99/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna.primary_assembly.fa.gz

  • gtf文件压缩包:
    wget ftp://ftp.ensembl.org/pub/release-99/gtf/mus_musculus/Mus_musculus.GRCm38.99.gtf.gz

3. gizp解压文件

  • fasta文件解压缩
    gunzip Mus_musculus.GRCm38.dna.primary_assembly.fa.gz
  • gtf文件解压缩
    gunzip Mus_musculus.GRCm38.99.gtf.gz

4. STAR构建索引

STAR是celescope的依赖软件,在下载和安装celescope时就已经嵌入到celescope对应的环境内。因此可以在celescope的环境中执行 构建索引 的步骤
(1)激活celescope的环境:conda activate celescope
(2)编辑index.sh,shell脚本内输入如下指令和参数:

STAR \
    --runMode genomeGenerate\ #让STAR执行基因组索引的生成工作
    --runThreadN 10\ #构建运行使用的线程数
    --genomeDir . \ #构建好的参考基因组存放的位置,最好是单独建立的一个文件夹,这里是/references/Homo_sapiens/Ensembl/GRCh38
    --genomeFastaFiles ./Mus_musculus.GRCm38.dna.primary_assembly.fa\ #fasta文件(参考基因组序列文件)
    --sjdbGTFfile ./Mus_musculus.GRCm38.99.gtf\# gtf文件(基因注释文件)
    --sjdbOverhang 149 #读段长度: 后续回帖读段的长度, 如果读长是PE 100, 则该值设为100-1=99

(3)使用nohup投递任务:nohup sh index.sh &
STAR运行将近90min,构建好的正确索引文件如下:

参考基因组索引构建完成

5. CeleScope构建索引

celescope也有内置的参数celescope rna mkref构建索引,同时生成一个config文件

config文件内容

celescope rna mkref
-h #查看帮助信息
--genomeDir #默认为./
--thread #线程数默认为6
--genome_name #设置参考基因组的名称,这个名称会最终展示到celescope生成的报告里,默认为None
--dry_run 只生成config文件
--fasta #接fasta文件
--gtf #接gtf文件
--mt_gene_list #基因列表文件,指定为某些基因归类(一般用不到,默认None)

(1)激活celescope的环境:conda activate celescope
(2)编辑index.sh,shell脚本内输入如下指令和参数:

celescope rna mkref \
    --genome_name mouse_ensembl_99\ #基因组名称
    --fasta ./Mus_musculus.GRCm38.dna.primary_assembly.fa\ #fasta文件(参考基因组序列文件)
    --gtf ./Mus_musculus.GRCm38.99.gtf\# gtf文件(基因注释文件)

(3)使用nohup投递任务:nohup sh index.sh &

postscript:
单细胞测序分析软件链接 celescope的下载和安装

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容