blast比对

使用blast在鱼的基因组上识别C-lectin基因

1. 下载基因组

wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/002/994/505/GCA_002994505.1_ASM299450

v1/GCA_002994505.1_ASM299450v1_genomic.fna.gz -O Seriola_quinqueradiata.fa.gz

gunzip Seriola_quinqueradiata.fa.gz

2. 获得C-lectin基因序列

cat > C_lectin.fa

>C-LECTIN

MKTLLILSVVLCAALSVRAAAVVPAEAATAQLGDKAAPEPEAVKDTAVEDTAVEETAVEDTAVEETAVEDTAVEETAVED

TAVEETAVEDTAVEDTAVEDTAVEDTAVEDTAVEETAVEDTAVEDTAVEDTAVAAGRPAGLRQTRLSFCLDGWQSFSGKC

YFLANHPDSWANAERFCASYEGSLASVGSIWEYNFLQRMVKTGGHAFAWIGGYYFQGEWRWEDGSRFDY

SNWDTPRSTAYYQCLLLNSQVSMGWSNNGCNMNFPFVCQVRQLNC

3. 构建基因组数据库

makeblastdb -in Seriola_quinqueradiata.fa -dbtype nucl -input_type fasta -out SerRivdb

-in 输入的建库序列文件

-dbtype 数据库的类型(核酸或蛋白质)

-input_type  输入的文件格式

-out 产生数据库的文件前缀

4. blast gene to genome


tblastn -db SerRivdb -query C_lectin.fa -out blastout.txt

获得更精确易读的结果

tblastn -db SerRivdb -query C_lectin.fa -outfmt '6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs salltitles' -num_threads 16 -out blastout2 .txt

挑选结果

more blastout2.txt | awk '$3>50'

确认结果,将比对筛选得到的序列再回比到NR数据库,确认比对的正确性。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容