如何测试AI模型

问题

机器学习是计算机科学中发展最迅速的领域之一。不幸的是,对于一些既不是数据科学家也不是ML开发人员的客户来说,他们仍然不清楚如何处理它,尽管他们确实知道他们需要将人工智能融入产品。

以下是我们从客户那里得到的关于ML质量保证的最常见问题。

  • 我想运行UAT;请你提供针对AI的完整回归测试案例?
  • 已经在生产中运行了模型;如何确保在更新时它不会损坏?
  • 如何确保它能生成需要的正确值?

机器学习简介

为了了解ML的工作原理,我们来仔细了解一下ML模型的本质。

经典算法/硬编码函数和基于ML的模型有什么区别?

  • 从黑盒的角度来看,就是同一个盒子,有输入有输出。把输入填进去,得到输出--多么美好的事情啊!

从白盒的角度,特别是从系统的构建方式来看,就有些不同了。核心区别在于。

函数是根据你的数据通过特定的算法来拟合的。你可以验证模型系数的ETL部分,但你不能像其他参数一样轻松验证模型质量。

如何测试?

模型审查程序类似于代码审查,但是是为数据科学团队量身定做的。我没有看到很多QA工程师参与这个特殊的程序,但接下来就是模型质量评估、改进等。评估本身通常发生在数据科学团队内部。

  • 你有一个基于ML功能的服务,已经部署在生产中。它已经启动并运行了,你想控制它不会被自动部署的新版本模型破坏。在这种情况下,有一个纯粹的黑盒方案:加载测试数据集,并验证它是否有一个可接受的输出(例如,将其与预部署阶段的结果进行比较)。请记住:这不是关于精确匹配,而是关于最佳建议值。所以,你需要注意可接受的离散率。

  • 验证部署的ML函数是否正确处理数据(即+/-反转)。这就是白盒方法最有效的地方:在模型中使用单元和集成测试来正确加载输入数据,检查正确(+/-反),并检查功能输出。无论你在哪里使用ETL,有白盒检查是好事。

  • 生产数据会发生突变,同样的输入随着时间的推移会产生新的预期输出。例如,某件事情改变了用户行为,模型的质量就会下降。另一种情况是动态变化的数据。如果这种风险很高,这里有两种方法。

1.简单,但昂贵的方法: 每天在新的数据集上重新训练。在这种情况下,你需要为你的服务找到合适的平衡点,因为再训练与你的基础设施成本高度相关。

2.复杂的方法。取决于你如何收集反馈。例如,对于二进制分类,你可以计算指标:精度、召回率和f1得分。根据这些参数写一个动态模型评分的服务。如果低于0.6,就是警报;如果低于0.5,就是重大事件。

  • 公测对某些情况下非常有效。 您可以根据之前未使用的数据评估模型质量。 例如,再增加300个用户来生成数据并进行处理。 理想情况下测试的新数据越多越好。 原始数据集是好的,但是大量的高质量数据总是更好。 注意:这里不是很好的测试数据外推方法; 您的模型应与真实用户良好配合,而不是根据预测或生成的数据。

  • 自动对服务进行ping操作,以确保其有效(不是专门针对ML测试,但不应忘记)。 使用Pingdom。 是的,这个简单的东西可以节省很多时间。 这里有许多更高级的DevOps解决方案。 但是,对我们而言,一切都始于此解决方案-我们从中受益匪浅。

参考资料

答案

  • 我想运行UAT;请你提供针对AI的完整回归测试案例?

向客户描述黑盒,并向客户提供测试数据和可以处理和可视化输出的服务。

描述所有的测试层,你是否在ETL层上验证数据和模型功能,以及你是如何做的。

制作模型质量报告。向客户提供模型质量指标与标准值。从你的数据科学家那里得到这些。

  • 已经在生产中运行了模型;如何确保在更新时它不会损坏?

你需要对任何生产推送以及任何其他软件进行QA审查。

执行黑盒冒烟测试。根据功能尝试各种类型的输入。

用测试数据的样本验证生产服务器上的模型指标。如果需要,隔离prod服务器的部分,这样用户就不会受到测试的影响。

当然,要确保你的白盒测试是通过的。

  • 如何确保它能生成需要的正确值?

了解你的模型和数据的可接受标准差。花一些时间与你的数据科学家一起深入研究模型类型和算法的技术方面。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,492评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,048评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,927评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,293评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,309评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,024评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,638评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,546评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,073评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,188评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,321评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,998评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,678评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,186评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,303评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,663评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,330评论 2 358