人类基因组中存在大量的重复区域,给定一段序列,如何知道这段序列在基因组中是否具有唯一比对,或者具有多个比对?
一种方法是通过bwa,通过AS和XS 标签判断是否有次优比对;但是这种方法无法知道这段序列所有可能的比对位置;
另一种方法就是blast,blast分为网页版以及本地版;
网页版blast
网址:https://blast.ncbi.nlm.nih.gov/Blast.cgi
点击Human,出现如下页面; 通过左上角的菜单,可选择比对数据库的类型;另外还可以设置参卡基因组的版本;
将序列复制到文本框中,点击blast;
本地版blast
1. 建立比对数据库
makeblastdb -in in.fasta -dbtype nucl -parse_seqids -out outdatabase
2. blast比对
blastn -query query.fasta -out query.fasta.blast -db outdatabase -outfmt 6
3. 比对结果如下
格式说明:
Query id, Subject id, % identity, alignment length, mismatches, gap openings, q. start, q. end, s. start, s. end, e-value, bit score