作业要求
最好是有mac或者linux系统,8G+的内存,500G的存储即可。需要安装的软件包括 sratoolkit,fastqc,hisats,samtools,htseq-count,R,Rstudio
来源于生信技能树:http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost
计算机资源的准备
需要Linux系统:只能选择Ubuntu 16.04 LTS ,这个版本是长期支持的,而且是开源系统,并且有很好的GUI,很适合菜鸟入门的系统。
8G内存:没有钱换新的电脑,只能把手头2009年至今的y450改装升级一下。原本只有2G内存,我全部卸下,在某宝购买了两根DRR3 1600 16芯的4G的内存条,我的小y已经是极限了,升级到8G的内存。
存储500G:本来的小y只有320G的西数HDD 5200转的硬盘,读取速度和开机速度均不行,我就索性将HDD换成了120G的特科芯的SSD(也是在某宝购买的),然后在光驱位买了一个1T的希捷的5200转的HDD,容量问题解决了。
内存:因为要跑比较大的数据,我就索性将CPU也升级一下吧,当然还是在某宝购买的,我原来的是T4200,实在是吃不消了,我就度娘了一下,结果很多人都推荐换成P9600,性能提升很多,而且发热比T9600少很多,所以内存也差不多了,已经是极限了。显卡我是没有办法了,因为被焊死在主板上了。
到此计算机资源算是勉强可以了,好像真的是有点惨,说到底就是科研狗比较惨,缺钱,要不然,我早就买苹果电脑了,哪来那么多的事情呢。能够做到这种程度,还是挺佩服我自己的哈。
以下软件安装的内容,是参考简书作者hoptop的内容进行,在此进行说明。因为自己是完全新手入门,很多东西没有办法很快入门,作者的内容对我的帮助非常大,感谢。当然在这过程中,自己也是折腾了很久,有些地方采用了自己的方法,对于植物学的实验者来说,真是不容易呢。
软件的安装
在这之前,我们需要替换Ubuntu的镜像源,方法如下(参考链接):
# 备份源列表文件并将默认镜像源改为清华镜像源
$ perl -pi.bak -e 's/cn.archive.ubuntu.com/mirrors.ustc.edu.cn/g' /etc/apt/source.list
$ perl -pi -e 's/http/https/g' /etc/apt/source.list
$ perl -pi -e 's/security.ubuntu.com/mirrors.ustc.edu.cn/g' /etc/apt/source.list
# 更新升级索引
$ sudo apt-get update
$ sudo apt-get upgrade
# 创建软件下载目录src和软件目录biosoft(也是从别人那里学来的,我也就这么常规的干了)
$ cd && mkdir src && mkdir biosoft
1.SRA Toolkit
官网:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
$ cd ~/src
# 选择适合自己系统的软件,这里选择的是Ubuntu版本。
$ wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2-1/sratoolkit.2.8.2-1-ubuntu64.tar.gz
# 解压并将解压后的文件剪切到biosoft目录下
$ tar -zxvf sratoolkit.2.8.2-1-ubuntu64.tar.gz && mv sratoolkit.2.8.2-1-ubuntu64 ~/biosoft
# vim编辑器直接编辑~/.bashrc文件,将该软件加入环境变量中,可以全局运行,不用在运行的时候切换到当前目录
$ vim ~/.bashrc
# 在文件最后增加如下内容
PATH=$PATH:~/biosoft/sratoolkit.2.8.2-1-ubuntu64/bin
# 更新
$ source ~/.bashrc
# 尝试运行软件,出现帮助信息,就说明成功安装
$ fastq-dump -h
功能:能够将下载的SRA格式的测序结果转换成fastq格式,便于下一步的测序数据质控。
参考中文说明:http://blog.sina.com.cn/s/blog_8034ba040101e7ru.html
官方详细文档:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
2.Fastqc
官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
因为fastqc运行需要Java环境,所以在安装之前需要检测一下Java环境
# 看是否安装了Java
$ java -version
# 若不存在,则进行安装,但是Java的版本要适合。我在装了Java9之后,fastqc没法正常运行,之后降到8版本之后,就能正常运行。
$ sudo apt-get install openjdk-8-jdk
$ cd ~/src
# 下载二进制包,对自己Linux有信心的同志,可以下载源码包,自己编译
$ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip
$ unzip fastqc_v0.11.5.zip && mv FastQC ~/biosoft
$ vim ~/.bashrc
# 加入环境变量
PATH=$PATH:~/biosoft/FastQC
$ source ~/.bashrc
# 测试软件,出现帮助信息
$ fastqc -h
功能:可视化测序结果质量的软件
中文教程:https://www.plob.org/article/5987.html
3.HISAT2
官网:http://ccb.jhu.edu/software/hisat2/index.shtml
$ cd ~/src
# 直接下载二进制包,免去自己进行编译安装
$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
$ unzip hisat2-2.1.0-Linux_x86_64.zip && mv hisat2-2.1.0 ~/biosoft
# 添加环境变量
$ vim ~/.bashrc
PATH=$PATH:~/biosoft/hisat2-2.1.0
$ source ~/.bashrc
# 测试软件
$ hisat2 -h
功能:将RNA-Seq的结果比对到基因组。
使用:http://bioinformatics.xtbg.ac.cn/hello-world-2/
官方使用手册:http://ccb.jhu.edu/software/hisat2/manual.shtml
4.HTSeq
网站:http://samtools.sourceforge.net/
# 首先安装pip
$ sudo apt-get install python-pip
$ pip install HTSeq
# 直接安装完成,测试
$ python
>>> import HTSeq
# 如果没有出现报错信息,说明能够正常使用
功能:用来计数多种mapping软件输出文件reads
使用说明:http://www.dengfeilong.com/post/htseq-count.html
5.SAMtools
网站:http://samtools.sourceforge.net/
$ cd ~/src
$ sudo apt-get libz-dev libbz2-dev liblzma-dev libssl-dev
# 环境要求:Samtools requires the zlib library <http://zlib.net>, the bzip2
library <http://bzip.org/>, liblzma <http://tukaani.org/xz/> and (optionally)
a curses or GNU ncurses library <http://www.gnu.org/software/ncurses/>
## zlib安装
$ wget http://zlib.net/zlib-1.2.11.tar.gz
$ tar -zxvf zlib-1.2.11.tar.gz && cd zlib-1.2.11
$ ./configure && make && make install
## bzip
$ wget http://bzip.org/1.0.6/bzip2-1.0.6.tar.gz
$ tar -zxvf bzip2-1.0.6 && cd bzip2-1.0.6
$ ./configure && make && make install
## curses(编译过程可能会出错,忘记解决了,总之是百度)
$ wget ftp://ftp.gnu.org/gnu/ncurses/ncurses-6.0.tar.gz
$ tar -zxvf ncurses-6.0.tar.gz && cd ncurses-6.0
$ ./configure && make && make install
# htslib(可能编译过程中,libbz2.a出现问题,需要删除,然后进入zlib目录,make clean,再重新编译)
$ git clone git://github.com/samtools/htslib.git
$ cd htslib
$ ./configure && make && make install
# samtools(编译老是出问题,总是要靠度娘)
$ git clone git://github.com/samtool/samtools.git
$ cd samtools
$ ./configure && make && make install
# bcftools
$ git clone git://github.com/samtools/bcftools.git
$ cd bcftools
$ ./configure && make && make install
## 测试
$ samtools --help
功能:生成存放高通量测序比对结果及其他转换格式,融合文件
参考网站:http://www.cnblogs.com/freemao/p/3763498.html
6.R
# 添加README文档说的镜像源到source.list,这里我选择中国科技大学的。
$ vim /etc/apt/source.list
deb https://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu xenial/
deb https://mirrors.ustc.edu.cn/ubuntu/ xenial-backports main restricted universe
# 还有需要添加密钥到电脑,secure APT
$ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys E084DAB9
$ sudo apt-get update
$ sudo apt-get install r-base
$ sudo apt-get install r-base-dev
# 测试
$ R
# 会出现r的开启提示语
## 这里还有个额外的工作,提高安装R包速度,要在家目录下新建.Rprofile,添加如下内容
$ vim ~/.Rprofile
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")
功能:统计分析
使用手册:https://www.w3cschool.cn/r/
7.Rstudio
# 桌面版本Ubuntu,使用Rstudio比较方便
$ cd ~/src
$ wget https://download1.rstudio.org/rstudio-1.0.143-amd64.deb
# 安装,也可以直接点击deb包,直接可以安装,不用命令行也方便
$ dpkg -i rstudio-1.0.143-amd64.deb
8.感想
这是第一次用简书的markdown来写笔记,而且是带有代码的,一次崭新的开始。因为这一篇是后面补上的,刚开始的时候没有特别察觉到做笔记这件事,后来觉得还是有必要的,因此我就开始补起来,而且因为不是边做实验边进行记录,所以代码还要自己重新敲,重新确认能否使用,真是折腾死了。痛不欲生啊,尤其是需要编译软件的时候,那是真的需要耐心,不然是真的会疯掉的,总是会出错,一个接着一个的出错。不管怎么样,第一步算是成功的迈开了,接下来还是需要记录一下代码,及时整理。