参考文献:
http://www.bbioo.com/experiment/24-117079-1.html
http://blog.shenwei.me/local-blast-installation/
Blast,全称Basic Local Alignment Search Tool,即"基于局部比对算法的搜索工具"
Blast能够实现比较两段核酸或者蛋白序列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列并对比对区域进行打分以确定同源性的高低。
Blast的运行方式是先用目标序列建数据库(这种数据库称为database,里面的每一条序列称为subject),然后用待查的序列(称为query)在database中搜索,每一条query与database中的每一条subject都要进行双序列比对,从而得出全部比对结果。
Blast是一个集成的程序包,通过调用不同的比对模块,blast实现了五种可能的序列比对方式:
blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。
blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),然后再与蛋白库做比对。
blastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。
tblastn:蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。
tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。
理清楚两个概念
相似性:
是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80%,或者4/5。这是个量化的关系。当然可进行自身局部比较
同源性:
指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的
序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。
正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80%一说。