崖州湾国家实验室大豆种子创新团队首席科学家田志喜作为通讯作者，在Cell期刊上发表了题为：Genomic atlas of 8,105 accessions reveals stepwise domestication, global dissemination, and improvement trajectories in soybean 的封面论文。研究系统调查了8,105份大豆种质资源在驯化、传播与改良过程中受选择的基因。首次发现黑大豆是驯化过程中的关键中间类型，大豆驯化性状呈现阶梯式选择模式。通过对比不同地理区域和历史时期的种质资源，鉴定出众多参与性状改良与环境适应的选育基因，并揭示了中国大豆改良育种重点随时间演变的动态变化。构建了首个大豆QTN库与在线变异数据库，为未来高产、高油、高蛋白大豆的精准育种提供了重要基因资源与平台。

PART.01｜研究设计与方法

技术路线

对8105个大豆种质资源进行全基因组分析揭示大豆逐步驯化的过程，黑豆作为其中重要进化中间体；通过对比不同地理区域和历史时期的种质资源，鉴定出众多参与性状改良与环境适应的选育基因并构建了一个变异数据库。

研究背景

过去60年全球大豆产量增长约13倍。面对全球人口持续增长带来的需求激增，大幅提升大豆产量已刻不容缓；在生产中，重点培育植株挺拔、茎秆强健、种子粒径增大及含油量提升等性状；在传播中，着重培育适应光周期变化、温度波动、病害侵袭等多样化环境条件的特性。解析大豆驯化、传播等过程中的遗传变化机制；鉴定性状选择的关键基因；揭示在自然种群中的遗传多样性。将有力推动育种计划，提升作物产量、抗逆能力。

研究材料

多项已发表研究的总共8,105份大豆种质的重测序数据。该群体包含1,334份野生种、1,045份地方品种、5,716份栽培种及10份半野生种，地理来源覆盖全球主要大豆产区。

研究方法

1. 基因组结构与遗传多样性分析

群体结构分析、连锁不平衡分析、基因流分析

2.择信号检测与关联分析

选择信号识别、全基因组关联分析、单倍型分析

3.基因功能验证实验

载体构建与遗传转化、亚细胞定位、分子互作实验、转录活性分析

PART.02｜主要成果

8105份大豆种质的遗传变异

将68.19 Tb的测序数据比对至（ZH13 v2.0）参考基因组，鉴定出4,856万个SNPs和1,082万个Indels，变异主要集中在基因间区与内含子区（图1B）。群体遗传分析证实，野生大豆的遗传多样性最高（图1C），连锁不平衡水平最低（图1D）。

图1 8105个大豆种质资源的统计和基因组变异

黑豆的基因组结构揭示了大豆驯化的潜在起源

群体结构和系统发育分析表明，所有野生品系聚为一个单一组；同时，地方品种和改良品种的分类与其地理分布呈现出明显的相关性（图2B和2C）。某些栽培大豆具有与其他栽培大豆显著不同的独特基因组结构。这些材料大多被归类为黑豆，其特征是具有独特的黑色种皮。

黑豆群体可分为黄淮地区和西北地区两大亚群，大豆可能存在至少两个独立的驯化中心，为长期存在的驯化起源争议提供了新线索。TreeMix、D统计等多重分析均证实，野生大豆、黑豆及其他栽培亚群之间存在复杂的基因流历史（图3A）。黑豆作为驯化的中间类型，在与野生和栽培群体的持续基因交流中，作为了重要中间环节。

图2 8105份大豆种质资源的群体结构

大豆驯化过程中农艺性状逐步选择

使用FST、 XP-CLR、π以及RAiSD方法进行全基因组扫描，在野生大豆与黑豆间检测到135个高质量选择性清除位点，在黑豆与地方品种间鉴定出了486个选择性清除位点。证实了种皮颜色的驯化发生在种子形态和品质之后（图3B）。

检测并比较野生大豆→黑大豆→地方品种的选择信号（图3C）。GmSHAT1-5，GmNST1A等基因在荚果开裂性状分析中被筛选出来，GmNST1A（GmSHAT1 - 5的同源基因）曾被推测具有类似功能，可调控大豆的荚果开裂现象，黑豆主要携带与野生大豆相同的单倍型（全长型，定义为Hap2），而地方品种和栽培品种则倾向于携带导致提前终止密码子的单核苷酸突变（截短型，定义为 Hap1），从而导致47个氨基酸的缺失（图3D和3E）。通过酵母单杂交试验证实，GmNST1A 与GmSHAT1 - 5启动子结合，发现GmNST1A基因在驯化过程中影响豆荚炸裂的潜在分子机制。

作者提出了一种驯化模型（图3F）：早期选择聚焦于产量与成熟期等核心性状，后期则在此基础上增强了对种皮颜色、休眠期等次级性状的改良。整个过程伴随着不同群体间复杂的基因流，最终塑造了现代栽培大豆的基因组。

图3 大豆驯化过程中农艺性状的渐进选择

大豆传播路线上不同的选择

通过Tajima's D值进行判定。已知基因被分为四类：开花时间（蓝色）、生物与非生物胁迫（紫色）、产量相关（红色）以及油脂与蛋白质含量（绿色）。通过Tajima's D信号，分析了大豆沿全球扩散路径发生的适应性选择。结果表明，许多关键农艺性状基因，尤其与开花时间、生长习性和品质相关的基因，在不同地理区域经历了差异化选择（图4A），纬度适应是其中的一个典型特征。以开花期主效基因E2为例，GWAS分析证实其为纬度适应的关键QTL（图4B），其不同单倍型（Hap1/Hap2）分别在高、低纬度地区富集（图4C）。

定向选择与平衡选择在促进植物适应方面也发挥了重要作用。利用Tajima's D统计量，鉴定出大量受平衡选择的基因（图4D）。在大豆开花网络中起关键调节作用的基因中：多个开花促进因子（如FT2a/E9）受到定向选择，以确保开花基础的稳定性；而多个开花抑制因子（如FT1a）则受到平衡选择，灵活调整开花时间（图4E）。这种“定向选择固定主效基因、平衡选择维持调控灵活性”的模式，可能是大豆广泛适应性的重要遗传基础。

图4 大豆传播中的选择

中国不同时期育种过程中的选择

通过对不同时期大豆的百粒重、蛋白质含量及油脂含量进行对比分析，根据这些特征的差异程度，将大豆品种划分为四个时期组别：1960年前（n =157）、 1960-1980年（n =275）、1980-2000年（n =479）及2000-2020年（n =608）。1960年至1980年期间蛋白质含量略有增加，油含量下降。此后，百粒重和油含量持续增加，蛋白质含量显著下降（图5A）。性状变化表明大豆育种重点发生了转变，最初侧重于高蛋白品种，随后在后期阶段重点转向培育高产和高油大豆品种，与市场需求变化吻合。对四个时期的遗传选择进行了比较分析，整个育种历史中存在大量选择性清除区域（图5B），与产量相关的基因选择压力在后期增强，比如育种策略从选择大粒相关基因（如GmCYP78A10）转向优化株型基因（如SPL9c）。

油脂和蛋白质含量呈显著负相关（图5C），但协同改良二者是育种的理想目标。为发掘关键基因，以“总油+蛋白含量”为性状进行GWAS分析，在13号染色体上发现了一个候选基因GmSWEET30a（图5D和5E）。进一步研究发现，GmSWEET30a启动子区的一个优异单倍型（Hap2）能显著提升“总油+蛋白”含量 (图5F)。分子实验证实，Hap2启动子具有更强的转录活性(图5G)。通过CRISPR-Cas9基因敲除技术，证明GmSWEET30a及其同源基因GmSWEET30b是协同调控大豆油分和蛋白质积累的关键正向调控因子，敲除后“总油+蛋白”含量显著下降 (图5H)。这一发现为打破油分-蛋白负相关、实现协同改良提供了宝贵的基因资源和育种靶点。

图5中国不同历史时期育种过程中的选择

受选择基因的遗传变异数据库

为指导未来育种，本研究构建了一个关键基因变异数据库，并分析了223份中国核心骨干亲本的单倍型分布。分析发现，虽然部分产量（如BIGSEEDS1）和品质（如GmSWEET10a）基因的优异等位基因已被高度固定，但GmSSS1（籽粒大小）、GmZF392（油脂）等基因仍存在巨大的遗传改良潜力（图6A）。

现代育种的强选择压力也带来了负面影响。现代大豆育种中对高产、抗病和高油含量的重视导致了这223个骨干亲本品种的遗传多态性降低（图6B）。I位点是种皮颜色的主要决定因素（图6C），它与Rhg4（是赋予大豆抗胞囊线虫病的重要基因，图6D）在物理位置上紧密相邻。在大豆驯化和改良过程中对黄色种皮颜色的选择导致了栽培大豆中Rhg4优良单倍型（Hap4）由于遗传累赘而丢失（图6E和6F），这解释了黑豆通常具有更强抗性的现象。

图6 现代栽培品种中选定基因的分析

PART.03总结

研究系统分析了8105份大豆材料的进化关系和群体结构，发现黑豆是大豆逐步驯化过程中的进化中间体。

研究提出了大豆两个独立的驯化中心假说，发现黑豆可以分为两个主要分支（分支1和分支2），分支1主要分布于中国的黄淮海地区，分支2主要分布于中国的西北地区（山西、陕西）。

研究系统分析了大豆传播与改良过程中的时空基因选择，挖掘到大量与生态适应性、生产特性分化相关的选择基因。

研究构建了在线数量性状核苷酸文库和变异图谱数据库，为指导育种策略提供了关键资源。

Cell | 田志喜团队用8105份种质的基因组图谱揭示大豆的逐步驯化、全球传播及改良轨迹