基本分析内容
• 基因家族概念
• 数据库检索与成员鉴定
• 蛋白成员基本特性和基因结构分析
• 多序列比对和进化树分析
• 保守结构域和模体分析(motif注释)
• 染色体定位和共线性分析
• Ka/Ks(非同义突变率与同义突变率的比值)计算
• 顺式调控元件分析
• 转录组或荧光定量表达分析(实验部分)
1.概念:
基因家族(gene family),是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物, 同一家族基因可以紧密排列在一起,形成一个基因簇,但多数时候,它们是分散在同一染色体的不同位置,或者存在于不同的染色体上的,各自具有不同的表达调控模式。
划分:一般基因家族文章研究的基因家族是按照序列相似程度划分
- 按功能划分:把一些功能类似的基因聚类,形成一个家族。
比如:拟南芥SOS(salt overly sensitive)基因家族(SOS1/AtNHX7、SOS2/AtCIPK24、SOS3/AtCBL4、SOS4和SOS5) - 按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。
同源基因
包括直系同源基因(orthologous gene)和旁系同源基因(paralogous gene),前者通常是指不同物种间因物种形成而被区分开的同源基因,后者通常是指种内由于基因复制而分离的同源基因。
常见的基因家族:
- ERF(14-3-3),MYB,WRKY,NBS-LRR,MADs-box,NAC,HSP等。
- 具体家族信息可以参考拟南芥已经发表的基因家族:https://www.arabidopsis.org/browse/genefamily/index.jsp
2.分析内容及流程
3.数据下载
基因家族模型下载
pfam(http://pfam.xfam.org/)下载已知的蛋白保守结构域的隐马尔科夫模型(HMM)
下载同源的蛋白序列(一般可考虑使用拟南芥(https://www.arabidopsis.org/)的蛋白质序列)
基因组数据下载
基因组文件fa下载:注意基因组文件和注释文件版本要对应
基因组注释文件(gtf,gff3,gff)下载
4.在目标基因组中寻找基因家族
- 1>利用hmmer(http://www.hmmer.org/download.html#windows)软件中的hmmsearch命令搜索目标基因家族蛋白。
- 2> blast(windows&linux安装ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/)搜索目标基因组蛋白序列相似的序列),统计identity>=50%(可根据需要求修改或者文献)结果。
- 3>domain确定