1.数据准备(以CYP450为例)
a.CYP450隐马尔可夫模型(hmm模型)准备
Pfam数据库:http://pfam-legacy.xfam.org/
InterPro数据库:https://www.ebi.ac.uk/interpro/
在Pfam数据库下载:(后期可能不可用)
下载到P450家族基因的结构域模型。
或者直接查阅文献,得到P450家族基因在Pfam数据中的号为PF00067,直接搜索下载
在InterPro数据库:(一个新的蛋白质数据库,整合了Pfam、NCBIfam、PIRSF、SMART等多个数据库)
同样可以下载到P450家族基因的结构域模型。
b.拟南芥P450家族基因蛋白序列
TAIR(拟南芥数据库):https://www.arabidopsis.org/index.jsp
获得拟南芥P450蛋白序列的id
通过id和网站的序列提取,获得序列信息
复制粘贴或者直接Ctrl+S保存,即可都得到拟南芥的P450蛋白序列,若希望得到更加精确的数据,可以再加上水稻或其他模式植物的家族蛋白序列。
数据准备就差不多啦,下一篇我们开始鉴定~
等等,你还需要一整套的基因组文件(不过我相信大家都是有的)
包括基因组文件:genomic.fasta
蛋白质文件:genomic.pep.fa
CDS序列:genomic.cds.fa
基因结构文件:genomic.gff3