2023年6月,河南农业大学冯建灿教授团队在Scientia Horticulturae发表了题为Manually annotated gene prediction of the CN14 peach genome的文章。论文作者通过整合桃RNAseq数据,对桃基因组进行基因结构注释进行全面注释,后利用 IGV-GSAman 软件进行基因结果注释人工矫正,最终获得超高质量桃基因结构注释信息。基于此,进一步开展了桃基因结构的特征分析和组织特异性表达基因挖掘,为桃功能基因组研究提供宝贵研究基础和研究经验。
近年来,随着基因组测序技术发展,基因组组装质量均有较大提升,但基因注释同样是基因组质量评估的方面之一,日益受到重视。基因组注释普遍采用de novo,近缘物种同源注释和基于转录组的注释,但几乎所有基因组注释均由计算机软件完成,存在较多的注释错误。为进一步提升基因组质量,对基因注释的准确度提高,是非常重要的一环。
桃是我国非常重要的经济水果之一。其独特的味道而受到消费者的喜爱。桃基因组小且杂合度低,共计16条染色体。因此,桃常作为研究李属和其他蔷薇科植物重要农艺性状的模式植物。因此,对桃基因组质量提升具有重要的意义,将进一步提高对桃基因鉴定、遗传定位和分子标记开发等研究。
IGV-GSAman(分支于IGV-sRNA)是一款基于IGV可视化的基因组注释软件,可人为快速调整基因结构,所见即所得,为基因的手动注释提供了非常大的便利。该软件操作简便,容易上手,仅需要简单培训即可完成基因纠正工作。本软件基于转录组数据对基因模型进行纠正,准确率高。
中油桃14(CN14)基因组于2022年释放,为进一步提升基因组注释结果,本研究选用多组转录组数据,利用 IGV-GSAman 软件对基因进行纠正。基因调整过程中也要注意仅调整转录组数据支持的基因,不表达或表达量很低的不作调整。手动调整中发现,基因错误的主要类型如下:
多基因被注释为单基因(图1 ab);基因提前终止(图1 cde);基因丢失(图1f);内含子错误保留(图1g)。
完成基因纠正后,基因数量和完整度均得到明显提高(表1),其中共纠正3981个基因,约占总基因数量的12.7%。此外,还利用TBtools中TAU Calc(Tissue specificity index)工具鉴定组织特异性表达基因,并利用Advanced Circos对组织特异性表达基因进行展示(图2)。
这项研究为桃功能基因组研究提供新的工具,为桃功能基因鉴定和遗传定位分析提供更准确的参考基因组,推动桃生物学的研究进步。未来,我们将结合更多组织的转录组和三代转录组等对基因组质量进一步提升,为桃研究提供更为精确的参考工具。
在本研究中,张海朋博士和硕士研究生冯贝贝为共同第一作者。冯建灿和谭彬教授作为本文的通讯作者,发挥了重要的指导作用。该工作获得了河南省重大科技专项(201300110500)、国家自然科学基金(32102329)、杰出外籍专家工作室(GZS2020007)、河南省大宗水果产业技术体系专项(HARS-22-09-G1)和河南农业大学青年英才(30501339)等项目的资助。
团队介绍
河南农业大学冯建灿教授为负责人的桃生物学与种质创新团队,长期专注于桃树型形成和种质创新等工作。近年来,解析了桃矮生、半矮生和发枝数量等性状形成的分子机理。选育出桃新品种10个,自主选育的新品种和配套的省力化栽培技术已在国内桃主产区大面积示范推广,团队申报的“桃早中晚熟系列新品种选育与分子育种技术创新”成果获2022年度河南省科技进步一等奖,为桃产业提升和新品种选育做出了重要贡献。