基因家族鉴定 hmmer+blast (含hmmer安装)

策略

hmmsearch + blast

单独使用或者组合使用

hmmsearch可以做两次,第一次使用pfam中的多序列比对结果构建模型进行搜索,筛选过结构域后,使用本物种的该基因家族的多序列比对结果再次构建模型,进行搜索

blast常用拟南芥、水稻

准备

conda 安装hmmer

 conda  create -n protein  python=2 #创建环境
 conda activate protein #激活环境
 conda install -y hmmer 

 hmmer-3.2.1          | 7.1 MB    | ########################################################################################## | 100% 
 Preparing transaction: done
 Verifying transaction: done
 Executing transaction: done 
 ##安装成功

准备数据

基因组文件:包括cds\pep\gff

拟南芥的某基因家族蛋白序列

从Pfam库下载hidden Markov model (HMM) profile

http://pfam.xfam.org/

主页输入PF号;跳转后的页面选择Alignments条目;format选择stockholm格式;点击generate,会下载一个txt文件

步骤

hmmsearch

激活环境,前面会显示环境名称

conda activate protein 

构建模型

hmmbuild :: profile HMM construction from multiple sequence alignments

hmmbuild pf00067.hmm  PF00067_seed.txt

搜索

hmmsearch: Search a protein profile HMM against a protein sequence database.

hmmsearch pf00067.hmm protein.fasta > out1

输出文件的解读见《hmmer使用手册》

得到候选基因集1

blastp

query:拟南芥基因家族蛋白

DB:你的基因组蛋白文件

program:blastp

建库

makeblastdb -in input_file -dbtype molecule_type -parse_seqids -out database_name -logfile File_Name

-in query 序列文件
-dbtype 后接序列类型,nucl为核酸,prot为蛋白 -parse_seqids 推荐加上 -out 后接数据库名 -logfile 日志文件,如果没有默认输出到屏幕

比对

blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 

-query: 输入文件路径及文件名 -out:输出文件路径及文件名 -db:格式化了的数据库路径及数据库名(就是建库时候的数据库名) -outfmt:输出文件格式,总共有12种格式,6是tabular格式对应之前BLAST的m8格式,不写该参数,默认输出比对文件 -evalue:设置输出结果的e-value值 -num_alignments 显示比对数Default = 250 -num_descriptions:单行描述的最大数目 default=50 -num_threads:线程

合并去重

excel表可以做到

使用TBtools提取候选id的蛋白序列
使用TBtools提取序列.png

验证结构域

Pfam

http://pfam.xfam.org/

SMART

http://smart.embl-heidelberg.de/#

Single模式支持没找到结果就预测并返回。而Batch模式,则只支持数据库中已收录结果的返回

使用 sequence analysis 模块,批量搜索入口在问号里。TBtools 有个插件可以批量

NCBI Conserved Domains

Domain 预测不到,或者 Domain 不完整,不代表不存在,可能只是算法敏感度的问题

多序列比对,手动检查保守结构域

https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi 支持蛋白序列、核酸序列,单条

https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi 支持多条(a file),只支持蛋白序列

结果解读: https://www.sohu.com/a/216315762_419916

specific hits meet or exceed a domain-specific e-value threshold (illustrated example) and represent a very high confidence that the query sequence belongs to the same protein family as the sequences use to create the domain model non-specific hits meet or exceed the RPS-BLAST threshold for statistical significance (default E-value cutoff of 0.01,or an E-value selected by user via the advanced search options)

去除无结构域的序列

人工矫正结构注释

对于结构域不完整的(partial),或者length明显过长的(可能是2-3个基因合到一起了),需要手动进行基因结构注释的矫正。

根据GFF文件,找到该基因所在基因组上的位置

根据位置提取基因组上下游序列(看序列长度,如+-3000bp)

将序列blastx NR数据库,根据比对结果,比着序列翻译的3种读码框,寻找GT...AG内含子

同时可以用基因结构预测网站辅助

ref:

什么是conda: https://www.jianshu.com/p/edaa744ea47d

HMMER 官方手册

SMART: https://www.jianshu.com/p/cef209c015e5

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,192评论 6 511
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,858评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,517评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,148评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,162评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,905评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,537评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,439评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,956评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,083评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,218评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,899评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,565评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,093评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,201评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,539评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,215评论 2 358

推荐阅读更多精彩内容