新时代下软件开发再思考（2）

早前字节跳动与中兴努比亚合作发布了第一款搭载豆包手机助手的“豆包手机”，最近谷歌与三星合作发布了搭载Gemini智能体的谷歌版“豆包手机”，两者都能像人一样“看”屏幕、“点”按钮，从而帮助用户自动完成跨应用的任务。

另一件事是OpenClaw的发布，它通过接入大模型、调用系统权限与外部API，象一个真正的”数字化员工”，协助你完成自动化办公或事务处理。

这两个事件说明了软件的交互方式正在发生变化。

现代计算机体系架构是建立在“冯·诺依曼体系结构”基础上的，由五大基本部件组成：运算器、控制器、存储器、输入和输出设备。输入设备从早期键盘和鼠标为主发展到多种输入方式：扫描仪与摄像头、麦克风、触摸屏与各类传感器设备，语音与手势识别等。输出设备从静态显示如显示器、投影仪、扬声器与耳机、各种传感器设备发展到各种沉浸式体验设备如 AR/VR头显等。

在AI技术的加持下，输入设备正从物理操作向意图表达发展。AI驱动的多模态融合（语音+手势+眼动+传感器）让系统去理解“用户想要什么”，而非“用户按了什么”。未来多模态融合的输入方式的权重将越来越重，这将影响软件的交互方式的变革。

软件的交互方式变革将改变软件整体架构。在当下的AI技术条件下，将流程编排作为调度中枢，AI Agent作为执行单元，软件可接受自然语言的输入，根据流程编排，AI Agent理解输入的自然语言的意图，调用各种工具完成程序的执行。在这种架构下，流程编排负责功能边界、权限控制和日志审计，AI Agent 负责意图推理，工具调用。

从计算机硬件的发展历程来看，从早年的大型机、小型机发展到小型机+工作台，最综进化到个人电脑时代，再到当前的PAD和智能手机，经历了从集中、高门槛走向开放、普及的过程，其中也伴随着计算机硬件成本的下降。我们有理由相信，随着AI部署成本和AI算力成本下降，将出现新的融入AI的“智能操作系统”，整体软件生态将发生天翻地覆的变化。部署成本是“把AI装进系统”的总开销，而算力成本是“让AI持续运行”的核心支出。从某种意义上讲，不管豆包手机还是谷歌版“豆包手机”，都是一个在当前AI部署成本和AI算力成本仍旧昂贵前提下的过渡，而“智能操作系统”才是最终的目标。

豆包手机的核心技术路径——“读屏+模拟点击”：通过语音、侧边键或豆包Ola Frend耳机激活系统、使用GUI Agent技术实现视觉理解+模拟点击、后台任务执行，完成了AI操作手机完成跨应用任务。而Gemini智能体则是通过AppFunction框架，公开功能入口，AI通过官方接口调用实现AI操作手机，谷歌同时准备了另一套方案：Gemini智能体会启动一个独立的虚拟环境运用目标应用，通过多模态视觉理解，多步骤推理与规划能力来完成复杂任务。这些方案中都涉及到权限与安全以及用户个人隐私及数据安全问题。谷歌采取了一系列措施来解决安全问题：任务必须由用户明确发起，AI不能擅自行动；用户可随时查看进度、介入干预或终止；涉及支付等敏感操作时，系统会提示用户手动完成。基于安全上的考虑，未来应该建立类似苹果“App Intents"的互操作性规则：APP通过授权开放特定功能接口，AI在安全框架内调用。

更进一步，融入AI的“智能操作系统”将完成更多的潜在需求：将系统内的用户数据、操作和调用保存在本地设备，达到隐私可控。同时“智能操作系统”可调度所有的外设设备，作为“私人数字助理”与用户进行交互，自主推理并执行任务，达成用户的意图。而用户的偏好或兴趣反馈给“智能操作系统"中的AI，通过持续学习与自主优化，“智能操作系统”不断强化”私人数字助理“的迭代，真正做到“越用越懂你”的智能伙伴。同时“智能操作系统”会持续不断维护与优化系统设备，防范系统攻击，保护用户个人信息与隐私，让设备更适应于个人。

新时代下软件开发再思考（2）

新时代下软件开发再思考（2）

相关阅读更多精彩内容

友情链接更多精彩内容