转录组入门(1):计算机及软件安装

作业要求

最好是有mac或者linux系统,8G+的内存,500G的存储即可。需要安装的软件包括 sratoolkit,fastqc,hisats,samtools,htseq-count,R,Rstudio
来源于生信技能树:http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost

计算机资源的准备

需要Linux系统:只能选择Ubuntu 16.04 LTS ,这个版本是长期支持的,而且是开源系统,并且有很好的GUI,很适合菜鸟入门的系统。
8G内存:没有钱换新的电脑,只能把手头2009年至今的y450改装升级一下。原本只有2G内存,我全部卸下,在某宝购买了两根DRR3 1600 16芯的4G的内存条,我的小y已经是极限了,升级到8G的内存。
存储500G:本来的小y只有320G的西数HDD 5200转的硬盘,读取速度和开机速度均不行,我就索性将HDD换成了120G的特科芯的SSD(也是在某宝购买的),然后在光驱位买了一个1T的希捷的5200转的HDD,容量问题解决了。
内存:因为要跑比较大的数据,我就索性将CPU也升级一下吧,当然还是在某宝购买的,我原来的是T4200,实在是吃不消了,我就度娘了一下,结果很多人都推荐换成P9600,性能提升很多,而且发热比T9600少很多,所以内存也差不多了,已经是极限了。显卡我是没有办法了,因为被焊死在主板上了。
到此计算机资源算是勉强可以了,好像真的是有点惨,说到底就是科研狗比较惨,缺钱,要不然,我早就买苹果电脑了,哪来那么多的事情呢。能够做到这种程度,还是挺佩服我自己的哈。

以下软件安装的内容,是参考简书作者hoptop的内容进行,在此进行说明。因为自己是完全新手入门,很多东西没有办法很快入门,作者的内容对我的帮助非常大,感谢。当然在这过程中,自己也是折腾了很久,有些地方采用了自己的方法,对于植物学的实验者来说,真是不容易呢。

软件的安装

在这之前,我们需要替换Ubuntu的镜像源,方法如下(参考链接):

# 备份源列表文件并将默认镜像源改为清华镜像源
$ perl -pi.bak -e  's/cn.archive.ubuntu.com/mirrors.ustc.edu.cn/g' /etc/apt/source.list
$ perl -pi -e 's/http/https/g' /etc/apt/source.list
$ perl -pi -e 's/security.ubuntu.com/mirrors.ustc.edu.cn/g' /etc/apt/source.list
# 更新升级索引
$ sudo apt-get update 
$ sudo apt-get upgrade
# 创建软件下载目录src和软件目录biosoft(也是从别人那里学来的,我也就这么常规的干了)
$ cd && mkdir src && mkdir biosoft

1.SRA Toolkit

官网:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

$ cd ~/src
# 选择适合自己系统的软件,这里选择的是Ubuntu版本。
$ wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2-1/sratoolkit.2.8.2-1-ubuntu64.tar.gz
# 解压并将解压后的文件剪切到biosoft目录下
$ tar -zxvf  sratoolkit.2.8.2-1-ubuntu64.tar.gz && mv  sratoolkit.2.8.2-1-ubuntu64 ~/biosoft
# vim编辑器直接编辑~/.bashrc文件,将该软件加入环境变量中,可以全局运行,不用在运行的时候切换到当前目录
$ vim ~/.bashrc
# 在文件最后增加如下内容
PATH=$PATH:~/biosoft/sratoolkit.2.8.2-1-ubuntu64/bin
# 更新
$ source ~/.bashrc
# 尝试运行软件,出现帮助信息,就说明成功安装
$ fastq-dump -h

功能:能够将下载的SRA格式的测序结果转换成fastq格式,便于下一步的测序数据质控。
参考中文说明:http://blog.sina.com.cn/s/blog_8034ba040101e7ru.html
官方详细文档:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc


2.Fastqc

官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
因为fastqc运行需要Java环境,所以在安装之前需要检测一下Java环境

# 看是否安装了Java
$ java -version
# 若不存在,则进行安装,但是Java的版本要适合。我在装了Java9之后,fastqc没法正常运行,之后降到8版本之后,就能正常运行。
$ sudo apt-get install openjdk-8-jdk

$ cd ~/src
# 下载二进制包,对自己Linux有信心的同志,可以下载源码包,自己编译
$ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip
$ unzip fastqc_v0.11.5.zip && mv FastQC ~/biosoft
$ vim ~/.bashrc
# 加入环境变量
PATH=$PATH:~/biosoft/FastQC
$ source ~/.bashrc
# 测试软件,出现帮助信息
$ fastqc -h

功能:可视化测序结果质量的软件
中文教程:https://www.plob.org/article/5987.html


3.HISAT2

官网:http://ccb.jhu.edu/software/hisat2/index.shtml

$ cd ~/src
# 直接下载二进制包,免去自己进行编译安装
$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
$ unzip hisat2-2.1.0-Linux_x86_64.zip && mv hisat2-2.1.0 ~/biosoft
# 添加环境变量
$ vim ~/.bashrc
PATH=$PATH:~/biosoft/hisat2-2.1.0
$ source ~/.bashrc
# 测试软件
$ hisat2 -h

功能:将RNA-Seq的结果比对到基因组。
使用:http://bioinformatics.xtbg.ac.cn/hello-world-2/
官方使用手册:http://ccb.jhu.edu/software/hisat2/manual.shtml


4.HTSeq

网站:http://samtools.sourceforge.net/

# 首先安装pip
$ sudo apt-get install python-pip
$ pip install HTSeq
# 直接安装完成,测试
$ python
>>> import HTSeq
# 如果没有出现报错信息,说明能够正常使用

功能:用来计数多种mapping软件输出文件reads
使用说明:http://www.dengfeilong.com/post/htseq-count.html


5.SAMtools

网站:http://samtools.sourceforge.net/

$ cd ~/src
$ sudo apt-get libz-dev libbz2-dev liblzma-dev libssl-dev
# 环境要求:Samtools requires the zlib library <http://zlib.net>, the bzip2
library <http://bzip.org/>, liblzma <http://tukaani.org/xz/> and (optionally)
a curses or GNU ncurses library <http://www.gnu.org/software/ncurses/>
## zlib安装
$ wget http://zlib.net/zlib-1.2.11.tar.gz
$ tar -zxvf zlib-1.2.11.tar.gz && cd zlib-1.2.11 
$ ./configure && make && make install
## bzip
$ wget  http://bzip.org/1.0.6/bzip2-1.0.6.tar.gz
$ tar -zxvf bzip2-1.0.6 && cd bzip2-1.0.6
$ ./configure && make && make install
## curses(编译过程可能会出错,忘记解决了,总之是百度)
$ wget ftp://ftp.gnu.org/gnu/ncurses/ncurses-6.0.tar.gz
$ tar -zxvf ncurses-6.0.tar.gz && cd ncurses-6.0
$ ./configure && make && make install
# htslib(可能编译过程中,libbz2.a出现问题,需要删除,然后进入zlib目录,make clean,再重新编译)
$ git clone git://github.com/samtools/htslib.git
$ cd htslib
$ ./configure && make && make install
# samtools(编译老是出问题,总是要靠度娘)
$ git clone git://github.com/samtool/samtools.git
$ cd samtools
$ ./configure && make && make install
# bcftools
$ git clone git://github.com/samtools/bcftools.git
$ cd bcftools
$ ./configure && make && make install
## 测试
$ samtools --help

功能:生成存放高通量测序比对结果及其他转换格式,融合文件
参考网站:http://www.cnblogs.com/freemao/p/3763498.html


6.R

R:https://www.r-project.org/

# 添加README文档说的镜像源到source.list,这里我选择中国科技大学的。
$ vim /etc/apt/source.list
deb https://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu xenial/
deb https://mirrors.ustc.edu.cn/ubuntu/ xenial-backports main restricted universe
# 还有需要添加密钥到电脑,secure APT
$ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys E084DAB9
$ sudo apt-get update
$ sudo apt-get install r-base
$ sudo apt-get install r-base-dev
# 测试
$ R
# 会出现r的开启提示语
## 这里还有个额外的工作,提高安装R包速度,要在家目录下新建.Rprofile,添加如下内容
$ vim ~/.Rprofile
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")

功能:统计分析
使用手册:https://www.w3cschool.cn/r/


7.Rstudio

官网:https://www.rstudio.com/

# 桌面版本Ubuntu,使用Rstudio比较方便
$ cd ~/src
$ wget https://download1.rstudio.org/rstudio-1.0.143-amd64.deb
# 安装,也可以直接点击deb包,直接可以安装,不用命令行也方便
$ dpkg -i rstudio-1.0.143-amd64.deb

8.感想

这是第一次用简书的markdown来写笔记,而且是带有代码的,一次崭新的开始。因为这一篇是后面补上的,刚开始的时候没有特别察觉到做笔记这件事,后来觉得还是有必要的,因此我就开始补起来,而且因为不是边做实验边进行记录,所以代码还要自己重新敲,重新确认能否使用,真是折腾死了。痛不欲生啊,尤其是需要编译软件的时候,那是真的需要耐心,不然是真的会疯掉的,总是会出错,一个接着一个的出错。不管怎么样,第一步算是成功的迈开了,接下来还是需要记录一下代码,及时整理。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,245评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,749评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,960评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,575评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,668评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,670评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,664评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,422评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,864评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,178评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,340评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,015评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,646评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,265评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,494评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,261评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,206评论 2 352

推荐阅读更多精彩内容