老白今天刚刚看到一篇论文《VCode: 一个使用SVG作为符号表征的多模态编码基准》(VCode: a Multimodal Coding Be...
起源与目标 HumanEval是由 OpenAI于2021年开发的,用于评估大型语言模型(LLMs)的代码生成能力。随着像 Codex(GitH...
起源与目标 在语言模型评估领域,MMLU 已经成为测试文本理解能力的标杆。然而,随着技术的发展,下一步的挑战是多模态能力——即模型在文本、图像、...
起源与目标 Humanity’s Last Exam (HLE) 于2025 年初由人工智能安全中心(CAIS)和 Scale AI 联合发布。...
起源与目标 在评估大型语言模型(LLM)时,测试数据污染一直是一个难以解决的问题。这种污染指的是,评测基准中的“未见过”的测试问题被意外包含在模...
起源与目标 BIG-Bench(全称"Beyond the Imitation Game Benchmark")最初是一个大规模的合作项目(go...
随着大语言模型(LLM)在各领域的广泛应用,如何科学评估其性能变得尤为重要。在这一系列文章中,我们将探讨10种常用的评估方法,旨在帮助读者更系统...
AI来了,vibe coding来了,是不是意味着测试工程师更加没有发展空间了?恰恰不是。 在上一篇文章中,老白提到过AI测试与传统测试的不同点...
近期经过和一些人聊天,对关注的一些招聘信息的了解,以及最近几年专注于构建自主AI系统的经验,觉得有一件事情变得非常明显且令人深刻感悟:AI测试并...