AI开始下沉到端侧：当模型跑进手机，测试体系会被重写吗？

最近一波端侧AI更新，很多人可能只是当作“产品升级”看过去了：

Google 推出离线语音能力（Eloquent）
Gemma 在端侧跑到 40 token/s
LiteRT-LM 这类推理框架开始落地

但如果你是做测试的，这一波其实不是功能更新。

是测试边界在变。

过去你测的是接口。现在你要开始测设备、测模型、测系统行为。

一、端侧AI这波到底发生了什么

先把现象讲清楚。

这一波不是单一产品升级，而是三个方向同时成立：

模型变小，可以在设备上运行
推理速度足够支撑实时交互
推理框架开始工程化落地

过去的AI调用路径是这样的：

dca0251a-76d3-4b1b-b233-beeb57f7d0ef.png

现在开始变成：

145a60f4-16bb-406b-9fac-3b44a66ddc57.png

路径缩短，但复杂度上升。

二、真正变化的不是模型，而是“运行位置”

很多人关注的是模型性能，但真正的变化在这里：

计算从云，移动到了端。

这个变化会直接影响系统设计。

延迟模型被重写

云模式：

网络延迟
推理延迟

端侧模式：

只剩推理延迟

体验变好，但压力全部转移到设备。

系统边界消失

过去模型是外部服务，可以当黑盒。

现在模型在系统内部，成为运行链路的一部分。

测试对象不再是API，而是整个系统。

控制能力下降

云模型可以：

热更新
回滚
统一监控

端侧模型：

分发困难
版本碎片化
行为不可控

这对测试是直接冲击。

三、推理速度背后，工程上做了哪些事

端侧能跑起来，不是因为“模型变强”，而是工程做对了。

模型被重新设计

不是简单裁剪，而是重构：

参数规模控制
计算结构优化
针对CPU/NPU适配

核心在于：

模型开始围绕“设备约束”设计。

推理框架在做极限优化

LiteRT-LM 这类框架，本质在做三件事：

算子融合
内存复用
异构调度

整体流程可以这样理解：

25c82bb5-561d-4dc8-8a16-7c4cac012835.png

40 token/s意味着什么

这不是一个简单的性能指标。

它意味着：

可以连续对话
可以实时生成
可以进入主流程

端侧AI开始具备“可用性”。

四、测试为什么会突然失效

很多团队的问题不是不会测，而是测错了对象。

Mock测试开始失效

云时代可以：

mock接口
固定返回结果

端侧模型：

行为不可完全预测
输出存在波动

mock无法覆盖真实情况。

测试对象发生变化

过去：

测接口

现在：

测模型 + 框架 + 硬件 + 系统

测试边界扩大了。

性能测试维度改变

过去关注：

现在必须关注：

CPU / GPU / NPU占用
内存
发热
电量

测试从“服务性能”，变成“设备性能”。

五、新测试体系应该怎么搭

继续沿用原来的方法，基本会失效。

需要补新的工程能力。

设备级测试成为基础

必须做：

多设备覆盖（不同芯片/系统）
长时间稳定性
极端场景（高温/低电量）

引入模型行为测试

不再只验证结果，而是验证行为：

输出是否稳定
语义是否一致
边界输入是否异常

可以这样设计测试链路：

840379d0-e647-4a2a-aa8e-bfebeca894e7.png

性能测试必须贴近真实使用

不要只跑benchmark，要测：

连续对话
长时间运行
多任务并发

做版本对比测试

端侧模型升级后，必须验证：

输出是否漂移
性能是否下降

这是很多团队当前缺失的一环。

六、这波变化会重新定义测试岗位

这不是简单的技术升级，而是岗位能力重排。

传统测试

只做接口、UI自动化在端侧AI场景中价值下降明显

AI测试

具备：

模型基础理解
行为验证能力

可以参与，但不够深入

系统级测试

需要具备：

模型理解
性能分析
设备调试

本质是跨领域能力

AI不再只是调用一个接口。

它开始变成系统的一部分。

2026-04-13