老白说IT - 简书

老白说IT

IP属地：上海

LLM通过SVG代码理解世界
老白今天刚刚看到一篇论文《VCode: 一个使用SVG作为符号表征的多模态编码基准》（VCode: a Multimodal Coding Be...

59 0 0
揭秘HumanEval：AI编程能力的终极测试
起源与目标 HumanEval是由 OpenAI于2021年开发的，用于评估大型语言模型（LLMs）的代码生成能力。随着像 Codex（GitH...

77 0 0

LLM的全方位挑战 - MMLU
起源与目标在语言模型评估领域，MMLU 已经成为测试文本理解能力的标杆。然而，随着技术的发展，下一步的挑战是多模态能力——即模型在文本、图像、...

36 0 0
LLM的极限测试 - HLE
起源与目标 Humanity’s Last Exam (HLE) 于2025 年初由人工智能安全中心（CAIS）和 Scale AI 联合发布。...

73 0 0
LLM想作弊？道与魔的较量 - LiveBench
起源与目标在评估大型语言模型（LLM）时，测试数据污染一直是一个难以解决的问题。这种污染指的是，评测基准中的“未见过”的测试问题被意外包含在模...

36 0 0
LLM理科掐尖生的高难度考试 - BBH&BBEH
起源与目标 BIG-Bench（全称"Beyond the Imitation Game Benchmark"）最初是一个大规模的合作项目(go...

20 0 0
LLM智力考察 - MMLU
随着大语言模型（LLM）在各领域的广泛应用，如何科学评估其性能变得尤为重要。在这一系列文章中，我们将探讨10种常用的评估方法，旨在帮助读者更系统...

68 0 0

AI变革：测试工程师帮忙保驾护航
AI来了，vibe coding来了，是不是意味着测试工程师更加没有发展空间了？恰恰不是。在上一篇文章中，老白提到过AI测试与传统测试的不同点...

96 0 1
AI变革：测试工程师的机会来啦
近期经过和一些人聊天，对关注的一些招聘信息的了解，以及最近几年专注于构建自主AI系统的经验，觉得有一件事情变得非常明显且令人深刻感悟：AI测试并...

71 0 0