使用序列进行同源比对时需先根据gene.fa创建参考库
有时提取的gene.fa中基因名有重复会报错
BLAST Database creation error: Error: Duplicate seq_ids are found(不识别基因大小写)
解决办法R :
library(Biostrings)
sequences <- readDNAStringSet("dre_gene.fa")
sequences@ranges@NAMES <- toupper(sequences@ranges@NAMES)###此处为都转为大写基因,按需使用
unique_names=unique(sequences@ranges@NAMES )
提取unique信息
unique_sequences <- sequences[unique_names]
保存新文件
writeXStringSet(unique_sequences, "gene_unique.fa")
新文件即可用makeblastdb软件构建参考库
linux命令:
makeblastdb -in gene_unique.fa -dbtype nucl -parse_seqids -out Anno_ref_dre