基因家族分析1 || 基本概念及数据下载

基本分析内容

• 基因家族概念
• 数据库检索与成员鉴定
• 蛋白成员基本特性和基因结构分析
• 多序列比对和进化树分析
• 保守结构域和模体分析(motif注释)
• 染色体定位和共线性分析
• Ka/Ks(非同义突变率与同义突变率的比值)计算
• 顺式调控元件分析
• 转录组或荧光定量表达分析(实验部分)

1.概念:

基因家族(gene family),是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物, 同一家族基因可以紧密排列在一起,形成一个基因簇,但多数时候,它们是分散在同一染色体的不同位置,或者存在于不同的染色体上的,各自具有不同的表达调控模式。

划分:一般基因家族文章研究的基因家族是按照序列相似程度划分
  • 功能划分:把一些功能类似的基因聚类,形成一个家族。
    比如:拟南芥SOS(salt overly sensitive)基因家族(SOS1/AtNHX7、SOS2/AtCIPK24、SOS3/AtCBL4、SOS4和SOS5)
  • 按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。
同源基因

包括直系同源基因(orthologous gene)和旁系同源基因(paralogous gene),前者通常是指不同物种间因物种形成而被区分开的同源基因,后者通常是指种内由于基因复制而分离的同源基因。


20190430103143.jpg
常见的基因家族:

2.分析内容及流程

分析流程.png

3.数据下载

基因家族模型下载

pfam(http://pfam.xfam.org/)下载已知的蛋白保守结构域的隐马尔科夫模型(HMM)
下载同源的蛋白序列(一般可考虑使用拟南芥(https://www.arabidopsis.org/)的蛋白质序列)

基因组数据下载

基因组文件fa下载:注意基因组文件和注释文件版本要对应
基因组注释文件(gtf,gff3,gff)下载

4.在目标基因组中寻找基因家族

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容