240 发简信
IP属地:上海
  • Resize,w 360,h 240
    LLM通过SVG代码理解世界

    老白今天刚刚看到一篇论文《VCode: 一个使用SVG作为符号表征的多模态编码基准》(VCode: a Multimodal Coding Be...

  • 揭秘HumanEval:AI编程能力的终极测试

    起源与目标 HumanEval是由 OpenAI于2021年开发的,用于评估大型语言模型(LLMs)的代码生成能力。随着像 Codex(GitH...

  • LLM的全方位挑战 - MMLU

    起源与目标 在语言模型评估领域,MMLU 已经成为测试文本理解能力的标杆。然而,随着技术的发展,下一步的挑战是多模态能力——即模型在文本、图像、...

  • LLM的极限测试 - HLE

    起源与目标 Humanity’s Last Exam (HLE) 于2025 年初由人工智能安全中心(CAIS)和 Scale AI 联合发布。...

  • LLM想作弊?道与魔的较量 - LiveBench

    起源与目标 在评估大型语言模型(LLM)时,测试数据污染一直是一个难以解决的问题。这种污染指的是,评测基准中的“未见过”的测试问题被意外包含在模...

  • LLM理科掐尖生的高难度考试 - BBH&BBEH

    起源与目标 BIG-Bench(全称"Beyond the Imitation Game Benchmark")最初是一个大规模的合作项目(go...

  • LLM智力考察 - MMLU

    随着大语言模型(LLM)在各领域的广泛应用,如何科学评估其性能变得尤为重要。在这一系列文章中,我们将探讨10种常用的评估方法,旨在帮助读者更系统...

  • AI变革:测试工程师帮忙保驾护航

    AI来了,vibe coding来了,是不是意味着测试工程师更加没有发展空间了?恰恰不是。 在上一篇文章中,老白提到过AI测试与传统测试的不同点...

  • AI变革:测试工程师的机会来啦

    近期经过和一些人聊天,对关注的一些招聘信息的了解,以及最近几年专注于构建自主AI系统的经验,觉得有一件事情变得非常明显且令人深刻感悟:AI测试并...

个人介绍
80后码农,无脑学习IT
长期分享各种科技信息,以及C#和Java