一 . 在ensemble 或者genecode上下载人类基因组
ensemble下载
1. 进入界面
image.png
image.png
2. 下载top level 文件
image.png
3. 下载 gtf文件
image.png
ensemble 下载的toplevel下载后解压出来有60G,有太多乱七八糟的东西,所以建议还是在geencode上下载
Geencode上下载
image.png
image.png
不同的文件包含的内容不一样,下载ALL或者CHR文件均可
二. 解压文件
批量解压
for gz in *.gz; do gunzip $gz; done# 解压多个.gz文件
for tar in *.tar.gz; do tar xvf $tar; done# 解压多个.tar.gz文件
三. 安装STAR
conda install -y STAR
四. 创建索引
STAR \
--runMode genomeGenerate \
--genomeDir index \
--runThreadN 10 \
--genomeFastaFiles .fa \
--sjdbGTFfile .gtf \
--sjdbOverhang 149
参数说明:
--runThreadN:线程数。
--runMode genomeGenerate:构建基因组索引。
--genomeDir:索引目录。(index_dir一定要是存在的文件夹,需提前建好)
--genomeFastaFiles:基因组文件。
--sjdbGTFfile:基因组注释文件。
--sjdbOverhang:reads长度减1。
索引构建完成后,就可以看到index_dir中生成了以下文件:
五. 生成以下文件
$ ll
total 29037186
chrLength.txt
chrNameLength.txt
chrName.txt
chrStart.txt
exonGeTrInfo.tab
exonInfo.tab
geneInfo.tab
Genome
genomeParameters.txt
Log.out
SA
SAindex
sjdbInfo.txt
sjdbList.fromGTF.out.tab
sjdbList.out.tab
transcriptInfo.tab
跑的过程中会有报错可能,尝试着去看错误是什么,不会就去检索
遇到错误
image.png
image.png
###解决方法
-- limitGenomeGenerateRAM=168632691637 ##加上这个参数就好啦
六 下载完成后
image.png