本地BLAST

conda安装:

conda create --name blast

conda activate blast

conda install blast


conda用法:

查看已安装的环境:  conda info -e

conda包管理

# 安装xxxx

conda install xxxx

# 查看当前环境下已安装的包

conda list

# 查看某个指定环境的已安装包

conda list -n python34

# 查找package信息

conda search numpy

# 安装package

conda install -n python34 numpy # 如果不用-n指定环境名称,则被安装在当前活跃环境 也可以通过-c指定通过某个channel安装

conda 更新

# 更新package

conda update -n python34 numpy

# 删除package

conda remove -n python34 numpy

# 更新conda,保持conda最新

conda update conda

# 更新anaconda

conda update anaconda

# 更新python

conda update python

conda 源

# 添加Anaconda的TUNA镜像

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

# TUNA的help中镜像地址加有引号,需要去掉

# 设置搜索时显示通道地址

conda config --set show_channel_urls yes


blast三个基本要素

分别是数据库(database)待比对序列(query)目标序列(subject)。基于这三个基本元素,本地Blast运行方式即是用户选定目标序列(subject)并将其构建成数据库,然后用待比对序列(query)在数据库中搜索,待比对序列遍历数据库中的每一条目标序列后得到最终比对结果。

本地Blast概述:本地Blast是一款集成软件,其中包括blastp、blastx和blastn等模块,通过调用不同的比对模块,blast实现了五种可能的序列比方式:

blastp:蛋白序列与蛋白库作比对,直接比对蛋白序列的同源性。

blastx:核酸序列与蛋白库作比对,将核酸序列先翻译成蛋白序列,再将其与蛋白库作比对。

blastn:核酸序列与核酸库的比对,直接比对核酸序列的同源性。

tblastn:蛋白序列对核算库的比对,现将核酸库翻译成蛋白库,再将蛋白序列与翻译后的蛋白库进行比对。

tblastx:核酸与核酸数据库在蛋白质水平比较


构建数据库

数据库来源:用户根据自己的需求将目标序列汇总,形成fasta文件。

数据库格式化:进入目标fasta文件所在目录,运行程序

核酸数据库:formatdb.exe -i input_db -p F -o F

蛋白数据库:formatdb.exe -i input_db -p T -o T

[参数解读]:

-i :需要格式化的数据库名称

-p:建库类型( F-核苷酸序列数据库,T-蛋白质序列数据库),该参数取决于用户需要构建数据库的序列类型,默认为T

-a:输入数据库的格式(T-ASN.1,F-FASTA),默认为T

-o:是否分析序列名并建立相应目录(T -解析序列标识并且建立目录,F –不建立目录)

-l:可改变用于记录运行过程的log文件的命名

-n:定义新生成数据库的名称,为方便用户下次调用数据库因此,在软件安装成功的基础上能否成功构建数据库,一是取决于输入文件格式是否正确,另一方面是文件路径是否正确设置。为方便用户对分析数据进行管理,小编提供两种方法用于输入文件的管理。一种是为避免Blast安装路径bin目录冗余混乱,建议将输入文件放置在db目录新建的项目文件中,通过shift+右键+在此处打开命令窗口运行Blast,另一种是通过相对路径的方式调用输入文件。


比对方式

本地比对(以Blastn为例)

blastall -p blastn -d b_seq.fasta -i test_seq.fasta -o out.txt

[参数解读]:

-p:blastn/blastp/blastx/tblastn/tblastx分别对应不同的数据比对方式

-o:结果输出到文件,若无-o设置则输出在屏幕上

-e:指定一个实数,过滤掉期望值大于这个数的比对结果,默认为10,建议设置为1E-5

-F:用来屏蔽简单重复和低复杂度序列( T/F),默认为T。可提高比对的精确度,但对于引物特异性检测等分析,建议设置为F。

-m:设定输出格式,-m~6展示了subjects间的比对结果,-m8~9以表格形式展示比对结果,默认。

-v:输出中每一个query的比对列表最多显示subject个数

-b:每个query最多显示与多少条subject的比对条形图(即query的结果中">"的个数)

-T:是否输出HTML格式的比对结果

本地Blast为核酸和蛋白间的多种比较方式提供了平台,方便用户构建个性化数据库,同时丰富了比对结果可视化。这些所有功能的实现都需要用户通过参数设置与软件平台形成交互作用,从而得到需要的结果。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容