课程来源于生信技能树:http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost
最好是有mac或者linux系统,8G+的内存,500G的存储即可。
如果你是Windows,那么安装必须安装git,notepad++,everything,还有虚拟机,在虚拟机里面安装linux,最好是ubuntu。需要安装的软件包括 sratoolkit,fastqc,hisats,samtools,htseq-count,R,Rstudio软件安装的代码,在生信技能树公众号后台回复老司机即可拿到。
系统准备:
windows 7旗舰版;VMware Workstation下安装Ubuntu 14.04.5 LTS
软件准备:
软件包存放和安装路径:/work/LXJ/software
SRA Toolkit
功能:下载、整理NCBI SRA数据
网址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
安装:
#下载安装包
$ wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2-1/sratoolkit.2.8.2-1-ubuntu64.tar.gz
# 解压
$ tar -zxvf sratoolkit.2.8.2-1-ubuntu64.tar.gz
# 添加环境变量
$ echo 'PATH=$PATH:/work/LXJ/software/sratoolkit.2.8.2-1-ubuntu64/bin' >> ~/.bashrc
# 更新初始文件
$ source ~/.bashrc
# 查看安装是否成功
$ prefetch -v
# 移除安装包
$ rm sratoolkit.2.8.2-1-ubuntu64.tar.gz
Fastqc
功能:检查二代测序数据质量
网站:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
安装:
# 判断系统是否安装java
$ java -version
# 若未安装,用以下命令安装
sudo apt install openjdk-9-jdk
# 验证是否安装java成功
$ java -version
# 安装fastqc
$ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip
$ unzip fastqc_v0.11.5.zip
$ cd /FastQC
$ chmod 770 fastqc
# 添加环境变量
$ vim ~/.bashrc
$ export PATH后添加::/work/LXJ/software/FastQC
$ source ~/.bashrc
# 查看安装是否成功
$ fastqc -v
samtools
SAM: 存放高通量测序比对结果的标准格式
功能: Reading/writing/editing/indexing/viewing SAM/BAM/CRAM format
网站: http://samtools.sourceforge.net/
安装:
依赖包:zlib2,bzip2,curses,htslib
$ sudo apt install autoconf libz-dev libbz2-dev liblzma-dev libssl-dev
#zlib2
$ wget http://zlib.net/zlib-1.2.11.tar.gz
$ tar -zxvf zlib-1.2.11.tar.gz && cd zlib-1.2.11 && make && sudo make install && cd .. && rm -rf zlib-1.2.11
#bzip2
$ wget http://bzip.org/1.0.6/bzip2-1.0.6.tar.gz
$ tar -zxvf bzip2-1.0.6.tar.gz && cd bzip2-1.0.6 && make && sudo make install && cd .. && rm -rf bzip2-1.0.6
#curses
$ sudo apt-get install libncurses5-dev
#htslib
$ git clone https://github.com/samtools/htslib.git
$ cd htslib
$ autoreconf
# building samtools
$ git clone https://github.com/samtools/samtools.git
$ cd samtools
$ autoconf -Wno-syntax
$ ./configure
$ make && make install prefix=$HOME/biosoft/samtools
$ vim ~/.bashrc
#export PATH后添加::/work/LXJ/software/samtools
$ source ~/.bashrc
$ samtools --help
#安装采用github,所以更新就用下面命令:
$ cd htslib; git pull
$ cd ../bcftools; git pull
$ make clean
$ make
HISAT2
功能: 将测序结果比对到参考基因组上
网站: http://ccb.jhu.edu/software/hisat2/index.shtml
安装:
linux版Hisat2下载,解压,可以使用了:
$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
解压(-d 解压到指定文件):
$ unzip -d /work/LXJ/software/ hisat2-2.1.0-Linux_x86_64.zip
检查是否可以运行:
$ ./hisat2
(ERR): hisat2-align exited with value 1:可以忽略
$ sudo vi ~/.bashrc
$ export PATH后添加:/work/LXJ/software/hisat2-2.1.0
$ source ~/.bashrc
HTSeq
功能: 根据比对结果统计基因count
网站: http://htseq.readthedocs.io/en/release_0.9.1/
安装:
HTSeq依赖包:setuptools,cython,Numpy,pysam。参考安装
$ wget https://pypi.python.org/packages/fd/94/b7c8c1dcb7a3c3dcbde66b8d29583df4fa0059d88cc3592f62d15ef539a2/HTSeq-0.9.1.tar.gz#md5=fc71e021bf284a68f5ac7533a57641ac
$ tar zxvf /work/LXJ/software
$ cd HTSeq-0.9.1/
$ sudo python setup.py install
MultiQC
功能:把多个测序结果的qc结果整合成一个报告。
网站:http://multiqc.info/
安装:
#conda 直接安装multiqc
$ conda install -c bioconda multiqc
检测安装是否成功
$ multiqc --help Options: -f, --force Overwrite any existing reports -n, --filename TEXT Report filename. Use 'stdout' to print to standard out. -o, --outdir TEXT Create report in the specified output directory. --pdf Creates PDF report with 'simple' template. Requires Pandoc to be installed.
使用:
$ multiqc *fastqc.zip --pdf
#扫描当前文件夹
$ multiqc .
$ multiqc pwd