新时代下软件开发再思考(2)

早前字节跳动与中兴努比亚合作发布了第一款搭载豆包手机助手的“豆包手机”,最近谷歌与三星合作发布了搭载Gemini智能体的 谷歌版“豆包手机”,两者都能像人一样“看”屏幕、“点”按钮,从而帮助用户自动完成跨应用的任务。

另一件事是OpenClaw的发布,它通过接入大模型、调用系统权限与外部API,象一个真正的”数字化员工”,协助你完成自动化办公或事务处理。

这两个事件说明了软件的交互方式正在发生变化。

现代计算机体系架构是建立在“冯·诺依曼体系结构”基础上的,由五大基本部件组成:运算器、控制器、存储器、输入和输出设备。输入设备从早期键盘和鼠标为主发展到多种输入方式:扫描仪与摄像头、麦克风、触摸屏与各类传感器设备,语音与手势识别等。输出设备从静态显示如显示器、投影仪、扬声器与耳机、各种传感器设备发展到各种沉浸式体验设备如 AR/VR头显等。

在AI技术的加持下,输入设备正从物理操作向意图表达发展。AI驱动的多模态融合(语音+手势+眼动+传感器)让系统去理解“用户想要什么”,而非“用户按了什么”。未来多模态融合的输入方式的权重将越来越重,这将影响软件的交互方式的变革。

软件的交互方式变革将改变软件整体架构。在当下的AI技术条件下,将 流程编排 作为调度中枢,AI Agent作为执行单元,软件可接受自然语言的输入,根据流程编排,AI Agent理解输入的自然语言的意图,调用各种工具完成程序的执行。在这种架构下,流程编排负责功能边界、权限控制和日志审计,AI Agent 负责意图推理,工具调用。

从计算机硬件的发展历程来看,从早年的大型机、小型机 发展到 小型机+工作台,最综进化到个人电脑时代,再到当前的PAD和智能手机,经历了从集中、高门槛 走向开放、普及的过程,其中也伴随着计算机硬件成本的下降。我们有理由相信,随着AI部署成本和AI算力成本下降,将出现新的融入AI的“智能操作系统”,整体软件生态将发生天翻地覆的变化。部署成本是“把AI装进系统”的总开销,而算力成本是“让AI持续运行”的核心支出。从某种意义上讲,不管豆包手机还是 谷歌版“豆包手机”,都是一个在当前AI部署成本和AI算力成本仍旧昂贵前提下的过渡,而“智能操作系统”才是最终的目标。

豆包手机的核心技术路径——“读屏+模拟点击”:通过语音、侧边键或豆包Ola Frend耳机激活系统、使用GUI Agent技术实现视觉理解+模拟点击、后台任务执行,完成了AI操作手机完成跨应用任务。而Gemini智能体则是通过AppFunction框架,公开功能入口,AI通过官方接口调用实现AI操作手机,谷歌同时准备了另一套方案:Gemini智能体会启动一个独立的虚拟环境运用目标应用,通过多模态视觉理解,多步骤推理与规划能力 来完成复杂任务。这些方案中都涉及到权限与安全以及用户个人隐私及数据安全问题。谷歌采取了一系列措施来解决安全问题:任务必须由用户明确发起,AI不能擅自行动;用户可随时查看进度、介入干预或终止;涉及支付等敏感操作时,系统会提示用户手动完成。基于安全上的考虑,未来应该建立类似苹果“App Intents"的互操作性规则:APP通过授权开放特定功能接口,AI在安全框架内调用。

更进一步,融入AI的“智能操作系统”将完成更多的潜在需求:将系统内的用户数据、操作和调用保存在本地设备,达到隐私可控。同时“智能操作系统”可调度所有的外设设备,作为“私人数字助理”与用户进行交互,自主推理并执行任务,达成用户的意图。而用户的偏好或兴趣 反馈给“智能操作系统"中的AI,通过持续学习与自主优化,“智能操作系统”不断强化”私人数字助理“的迭代,真正做到“越用越懂你”的智能伙伴。同时“智能操作系统”会持续不断维护与优化系统设备,防范系统攻击,保护用户个人信息与隐私,让设备更适应于个人。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容