RNA-Seq(1)——构建hg38索引(bowtie2)

1、下载hg38文件

​ UCSC官网下载hg38文件,网址http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/,进入到如下界面:


我们可以下载其中的hg38.fa.gz 和质量控制文件md5sum.txt。我直接点击下载了。下载完之后,首先用md5sum.txt进行完整性检验。

> cat md5sum.txt
dcc3ea27079aa6dc3f9deccd7275e0f8  hg38.2bit
1d97953254e25acd112a94895f01c039  hg38.agp.gz
1c9dcaddfa41027f17cd8f7a82c7293b  hg38.fa.gz
435423b167c13a2388d5691dc10a4750  hg38.fa.masked.gz
820796b72974d077281b3386c4fb8295  hg38.fa.out.gz
7645bc6e919eeb19bfc62451afc3c248  hg38.trf.bed.gz
a5aa5da14ccf3d259c4308f7b2c18cb0  hg38.chromFa.tar.gz
e9fddcb1663dd303f1f5d6cbb71d6a82  hg38.chromFaMasked.tar.gz
92910523b903753216ac18945c788d81  hg38.fa.align.gz
273fedff7f16fa2bed0d70c75f79caa2  hg38.gc5Base.wigVarStep.gz
9ed58d68e0998d511a8a58f4f748ce84  hg38.gc5Base.wib
c82fddc1c8ce3120cb5863f7384ed177  hg38.gc5Base.wig.gz
> echo 1c9dcaddfa41027f17cd8f7a82c7293b  hg38.fa.gz > check_md5sum_hg38.txt #复制hg38.fa.gz的MD5号到另一个新的文件中
> md5sum -c check_md5_hg38.txt #验证
hg38.fa.gz: 成功

然后命令行解压。

gunzip hg38.fa.gz

由于文件解压出来后较大,可能会解压很长时间,等一会就好。
解压出来的hg38.fa文件可以用于后续使用。

2、 建立索引(bowtie2)

文件准备:hg38.fa

source activate wes #进入到conda小环境
bowtie2-build hg38.fa hg38 #bowtie2 建立索引

建立索引的时间真的超级长!!!
可以挂到服务器后台运行

nohup bowtie2-build hg38.fa hg38 & > nohup01.out
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • http://c.biancheng.net/view/761.html 1.安装vMware Workstati...
    筑天阅读 235评论 0 0
  • Python day1 and day2 day1 数据类型 整数型,浮点型,字符型,布尔型等 import ma...
    whamai阅读 786评论 0 0
  • 笔记 打包压缩的时候,排除某几个文件 --exclude | 把前面 命令的结果 ,传给后面的命令linu...
    殷长空阅读 252评论 0 0
  • 问题描述:文章详情页有一个下载链接,文章: https://www.ithome.com/0/418/285.ht...
    Cocoa_Coder阅读 1,713评论 0 0
  • 敬畏生命 作为一个词语,“ 活着”在我们中国的语言里充满了力量,它的力量不是来自于喊叫,也不是来自于进攻,而是忍受...
    笑不二阅读 454评论 0 1