Anthropic发布生物信息学专属基准,大模型真实数据分析能力达专家水平

Anthropic近期发布了针对生物信息学领域的测试基准BioMysteryBench。这项测试主要评估大语言模型在处理真实且复杂的生物学数据时的科研分析能力。传统的科学评估方式通常侧重理论知识问答或者在模拟环境中进行操作。真实的生物学研究存在大量数据噪音且分析方法多样。Anthropic专门开发了这项全新的评估系统。

评估生物学研究能力存在三个挑战。第一,解决同一个研究问题存在多种正确的途径。第二,研究人员在数据处理中的个人决策具有极强的主观性,在处理存在噪音的数据集时,细微的分析差异会导致完全不同的结论。第三,许多深层次的生物学问题目前人类研究者自身尚未找到明确答案。

BioMysteryBench是为了应对上述情况而设计的。该基准包含99个由生物信息学专家编写的具体问题。这些问题主要基于未经处理或仅进行初步处理的DNA测序和RNA测序数据以及少量的蛋白质组学和代谢组学数据。这项评估系统具有三个核心特点。

首先,该测试不限制具体的分析方法。模型可以使用内置工具或者安装外部环境包以及访问公共生物数据库。只要最终得出的生物学结论正确即可得分。

其次,所有问题都具备客观的事实标准答案。这些答案来源于实验本身的客观属性或经过独立检测验证的数据,而不是科学家的主观推断。

最后,基于客观数据的出题方式允许基准中包含一部分人类专家难以直接解决的题目。

在对比测试中,Anthropic邀请了领域内的专家对这些问题进行解答,并将题目划分为人类可解答和人类难以解答两类。在人类可解答的问题集上,Claude的表现与人类专家相近。在人类难以解答的难题集上,多个版本的Claude模型也能解决一部分题目,部分前沿版本模型能够达到30%的解决率。

研究团队分析了Claude在解题时采取的策略。模型掌握了包含结构生物学、分子特征以及大量文献荟萃分析的基础数据库。对于需要人类专家耗时比对和综合整理的分析任务,模型能够直接结合内部数据与实时代码环境进行处理。另外,当模型对某个生物学问题的结果不确定时,它会同时运行多种不同的分析方法,并倾向于选择在多个方法中产生一致结果的最终答案。

图片
图片

模型团队对测试表现的稳定性进行了深入评估。数据表明,模型在不同难度问题上的解答稳定性存在显著差异。在较容易的题目上,模型表现出极高的稳定性,在多次尝试中全部正确或全部失败。但在极具挑战性的题目上,模型在多次重复尝试中难以稳定复现正确的推理过程。这说明模型在处理高难度生物学问题时仍存在一定的随机性。

BioMysteryBench的综合测试结果显示,当前的模型在生物信息学分析领域已经能够达到受训科学家的专业水平,并在部分复杂任务上展现出了更强的数据处理能力。人工智能技术正在逐渐深入真实的生命科学研究分析流程中。

Chart showing per-problem solve consistency on BioMysteryBench.
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容