对话式交互的崛起
计算机从简单的CLI(Command-line interface,命令行界面)发展到复杂的GUI(Graphical User Interface,图形用户界面),再发展到以自然交互为主的NUI(Natural User Interface, 自然用户界面),期间经历了30多年时间。CLI时代计算机性能欠缺,用户与计算机的互动主要以简单连续的指令为主;到了GUI时代,计算机性能大幅度提升,用户与计算机的互动还增加了浏览、视频、语音、游戏等方式;再到NUI时代,随着大数据和人工智能和其他新型技术的出现,与计算机的交互逐渐从鼠标键盘发展到触摸屏、语音交互、与穿戴式设备的交互、AR(Augmented Reality,增强现实)和VR(Virtual Reality,虚拟现实)的交互。一路下来“界面”这词逐渐变得模糊甚至未来可能会消失,那么人与计算机的交互脱离界面后以什么样的形式承载呢?
这个问题的答案得回归到计算机input(输入)和output(输出)的本质。input类似于我给计算机一个问题或指令,output类似于计算机理解我的问题和指令后给予解答或反馈。本质上其实是人与计算机的交流和对话。也就是说即使脱离了界面,人与计算机的交互能以对话的形式继续下去。
谈起对话,人生短暂几十年,人将大部分时间和精力都花在学习如何与别人沟通。即使这个人是文盲不懂写字不懂如何使用计算机,他也能够通过说的形式将自己的想法表达出来与别人沟通,因为这是人的本能。有好多老人之前没有接触过计算机和手机不懂如何使用新科技,加上年龄的增长,他们对这些冷冰冰的科技有着抵触;但他们愿意学习使用微信和远在他方的儿女交流,因为微信有语音输入和视频聊天,即使不懂文字输入教一下他们也懂得如何语音聊天甚至视频交流,与儿女见面交流变得如此简单。
与朋友亲人聊天包括了情感交流,温馨、喜悦、激动,这也是为什么老人愿意使用微信语音,因为他们觉得微信的另一边是好久没见的儿女。如果机器可以是一个人,也是一个朋友,我们可以通过文字与语音的形式与机器对话交流,无疑学习成本是最低的,而且更多人愿意去尝试。对话式交互自然而然成为人与计算机之间最简单最自然的交互方式。
机器与人对话难点在于
对话是人与人之间交换信息的普遍方式。人可以在交流时通过判别对方的语气、眼神和表情判断对方表达的情感,以及根据自身的语言、文化、经验和能力理解对方所发出的信息,但对于只有0(false)和1(true)的计算机来讲,理解人的对话是一件非常困难的事情,因为计算机不具备以上能力。对话式交互是计算机拟人化的关键之一,要实现拟人化需要解决以下问题:
1.词语和语法理解
计算机通过NLP(Natural Language Processing,自然语言处理)去理解人说的话。但有些语句和词语可能会产生歧义,例如:The pen was in the box.(钢笔在盒子里);然而 The box was in the pen(盒子在钢笔里)?这句话是不符合常识的,但pen还有一个意思是围栏,“盒子在围栏里”这句话是符合常识的。单从一句话计算机可能无法准确理解对错,这需要计算机对上下文和对现实环境有充分的感知才能理解人类所表达的意思。随着对话次数的增加,上下文变得更复杂,这对于计算机的性能和理解能力是一个非常大的挑战。
2.命令和问题
目前人与计算机的对话大多以简单命令和问题为主,如“今天天气怎样?”“元旦节是什么时候”“最近最便宜的餐馆在哪?”“现任美国总统是谁”“顺德在哪?”。计算机可以通过“天气,餐馆,最近,最便宜”等关键词明确命令和问题后,在自己数据库和互联网上进行搜索,梳理答案并排序,将最优答案反馈给用户。
以上问题可以总结为“是什么(What),什么时候(When),哪一个(Which),是谁(Who),什么地点(Where)”,目前计算机能简单处理以上问题,但“为什么欧美人头发是金色的?”“做九大簋的流程是怎样的”等涉及“为什么(Why)”“过程(How)”,若之前没有用户在网上回答过该问题,计算机不知道答案是什么,整个对话可能被中断,体验也会受到折损。
再举一个例子,“帮我买一张飞机票”,人可以从经验判断出这张飞机票由多个因素决定:地点,时间,价格,怎么买。若应用之前已录入了解决办法,如先了解用户要飞去哪里,然后自动获取用户的日程表和未来几天的机票价格,合理给出便宜且满足用户时间的机票选择,用户确认机票信息后应用将用户的身份信息,飞行时间,目标地点反馈给航空公司,预定好机票后让用户确认并付款。若该应用的设计师没有录入解决该问题需要哪些参数(因素),可能机器无法对此命令作出执行;整个对话也会被中断,体验受到折损。
3.数据积累
人的成长更多在于学习和知识、经验的积累,三者也决定了智商这词。通常智商高的人不太喜欢和智商低的人讨论学术或技术问题,因为他总感觉俩人不在一个频道上,沟通起来会很麻烦。例如Sheldon在和Leonard他们讨论学术问题几乎都是轻蔑的语气,因为Sheldon觉得Leonard他们无法理解他的思维和想法,无法帮助他解决问题,
所以Sheldon更不喜欢和Penny有学术上的交流。
同理,目前机器的智商只有几岁大,只能执行人类的简单指令,但不能帮助人类解决更多思维上有难度如哲学、学术上的问题,所以人与机器交流起来可能会很心累而且会这么想:
Alpha Go能在围棋领域(对话)击败李世石是通过几万台服务器下了几百万盘棋经验(数据)的积累,不断自我迭代提升自己的智商(算法),所以机器想和人类有正常的对话交流需要掌握更多的数据,通过大数据和机器学习的形式进行自我迭代,把知识和经验沉淀下来,提升自己的智商。
4.语音识别
以上是基于文字的对话,属于对话的基础。若要进一步发展则是人通过说话将信息表达出来而机器接收语音并转化为文字。语音识别将是对话的一个非常高的门槛。
A.语言
人在聊天时所表达的意思主要由词汇、语调、语言、语法、口音和语速等决定。机器要将语音识别为文字需要解决以上因素,再通过机器翻翻译成能理解的文字再执行。
B.情感
人在聊天时往往带着情感交流,不同的情感语句所表达的意思也会截然不同,这会导致上下文理解产生明显的差异。举一个“卧槽”的例子。
相同一个词用不同发音会有不同的表达情感,这对机器来讲是否能准确理解人所表达的意思是一个非常大的挑战。
C.机器如何表达
机器需要将信息转换成人类可接受的对话,难点包括了信息表达的转换(文章的表达(类似文言文)与聊天形式(类似白话)的表达截然不同)、对话的长度、各国语言、文化、情感化。
技术限制与解决
说了这么多,其实想说明未来决定对话式产品成功的因素不是产品和设计,而是技术能否支撑复杂的对话流。之前人与计算机的交互大多数是人给简单的指令和问题,计算机给出反馈和简单的选项让人做决定,所以难度较低。现在是人给出指令和问题后,计算机需要分析上下文理解用户的意思,产生选项后自己解答,最后将最优解反馈给人,难度提升了很多。
近年来科学家通过机器学习和大数据的方法,人工智能有了新的突破。Google利用大数据来训练自己的翻译模型,使自己的机器翻译水平有了质变的飞跃;百度推出的Deep Speech 2(深度语音识别系统)语音识别准确率高达97%,语音输入比手动文字输入快达3倍,且失误更低;百度的新型情感语音合成系统能够让机器摆脱平铺直叙的发声,为用户带来更自然、更接近真人朗读的听觉体验;在20层神经网络的基础上,微软认知服务提供了语音及语言API给开发者,开发者可以开发自己的对话式应用。技术逐步发展起来,在不久的将来会有更多的对话式产品进入市场。
对话式技术解决方案:
人工对话
主要代表为美国创业公司设计的个人助理应用Magic。当用户提出要求如“帮我买一张机票”时,后台通过人工运营为用户提供解决方案,简单理解就是有个贴身客服为你解决问题。该方案的好处是本质上是人与人之间的沟通,能避免很多问题;缺点是当用户量涨起来后,后台的人工运营能否扛住压力。目前Magic通过一半人工一半机器回答的形式转型,减少后台的压力。
预埋对话
主要代表为苹果的Siri,Google的Google Now,微软的Cortana,Amazon的Echo以及百度的度秘。目前大部分对话式产品都采用该方案,通过识别语句中的关键词给出预埋的解答。这方案的实现主要通过设计师设计的决策树来实现,例如用户说“开灯”,机器需要识别关键词“开灯”,然后判断家里是否有灯,几盏灯?然后问用户开第几盏灯?这方案并不智能,只是设计师通过自己的经验提前把问题和解决流程录入到机器中,整个流程下来其实就是设计师设计该机器怎么做。该方案的好处是降低答案的失误和减少重复的工作;坏处是当设计师没有意识到问题的其他最优解决办法或存在的bug,整个系统可能给不出最佳答案甚至无解;以及整个对话下来其实就是人与机器的独白,没有任何交流。
高科技的设计者常以自己设计的系统具有“沟通能力”为荣。可是,进一步分析发现,这是“用词不当”:那并不是真正的沟通,即没有双向的一问一答的真正对话。充其量只不过是两句单向的自言自语。我们对机器发出指令,然后,机器对我们回以指令。两句独白并不能构成对话。——唐纳德·A·诺曼
人工智能对话
主要代表还是苹果的Siri、Google的Google Now、微软的Cortana、Amazon的Echo以及百度的度秘。该方案主要通过处理大数据和机器学习的形式进行自我迭代优化现有决策树,实现更完整的决策树和产生更多最优的解决方案,它能理解更多指令和记录用户的习惯;但如何理解上下文,理解用户情感仍是最重要的难题。只有把它们解决了,智能对话才能到达科幻电影中的钢铁侠Tony Stark的JARVIS智能系统的水准。
我以为使机器能与人沟通的关键是发展更好的对话系统。但我这想法并不对。成功的对话需要共通的知识和经验。它需要对四周环境、前后脉络、导致目前情况的历史背景以及当事人众多不同的目标和动机等都要有所领悟。现在我认为这正是当今科技的根本局限,这种局限阻碍了机器全面、拟人化地与人互动。人与人之间要建立共通的了解本来就很难,那我们如何寄望于机器建立这种关系?——唐纳德·A·诺曼
提高机器对话质量
为了解决理解上下文及理解用户情感的难题,微软设计了小冰聊天机器人,这是一个开放式聊天机器人,可以在各平台上如微博,微信公众号上使用。通过与用户的不断聊天,小冰不断增加自身语料的训练,整个对话体验也会不断优化。小冰可以初步判断用户的情感以及“学会”用表情聊天,使平均对话可以达到20多次来回,是其他聊天机器人如度秘的对话来回5倍以上。后期小冰与小娜做整合,身为个人助手的小娜可以与用户有更多的交流,体验上也会大幅增长。今年Facebook在F8大会上发布的聊天机器人,目的是替企业解决客服问题,也为用户提供查阅新闻,订购东西的服务,也是为后期对话式产品做准备。在未来几年,对话式服务的产品可能成为主流产品。
对话式产品的形态
增加对话的形式获取信息,在一定程度上弱化了以浏览为主的信息获取和操作。对于很多产品例如新闻资讯、订票、购物等类型会发生界面和流程上质的变化。
新闻资讯
用户可以通过扫读的形式阅读新闻文章了解信息,可能需要一两分钟就能了解几百字新闻讲的大概内容。如果机器以对话的形式将新闻几百字念完那么效率是低下的,更何况文章和对话有本质上的区别,在语法,情感等表达方面完全不同,用户可能没有耐心把一篇文章听完。所以文章要以对话形式承载,摘要、内容拆分、白话化和情感化是关键。
订票
订票等流程式操作以对话的形式承载将变得更简单,体验可能理解为回归至客服订票的时代,可能已不需要界面来承载订票流程了。
购物
购物应用将以对话和界面展示物品的形式推荐相关商品,就像一名贴在你身边拿着传单的导购为你出谋划策买哪件方便点。
分析大数据和建设一套完整的人工智能对话式系统需要足够的资源和技术来支撑,在未来小公司会更依赖于大公司提供的智能对话式平台,以及有更多的场景和服务例如新闻资讯、订票、购物以及健康等集成在类似于Siri的智能对话式平台。当平台集成更多资源后,未来一台手机里多个应用的现象将逐渐消失,对话式平台更像一个个人助理和贴身管家。它能帮你管理信息、解决问题、以及连接线上线下甚至连接虚拟世界。手机将变得不那么重要,当Siri移植到一个可对话的耳机或音箱后(如Amazon的Echo),你可以解放在现实中或虚拟世界的双手,若能随时随地与个人助理交流,效率能得到进一步提升。
对话式设计与交互
目前对话式设计逐渐发展起来但仍处于起步阶段,界面设计从复杂变回简单,复杂的页面结构将被简单的上下结构的对话式取代。现状是为了实现对话式而采用对话式设计,把文章、音频、图片、视频等内容与对话结构进行融合,因为屏幕和界面还是现在主要的载体和展现形式。
设计师在进行对话式设计时需要更注重心理学和情感化设计,因为对话式设计直观点来说就是设计师和用户在对话。设计师要学会提炼信息并口语化,以及将信息与情感结合。
对话式交互的信息需要根据上下文和场景来呈现,每一次对话将决定下一次对话的内容和信息,所以在对话式设计中,产品的信息架构逐渐被决策树取代,这需要设计师适应从界面流程设计逐渐转向策略设计,建立满足用户需求的完整决策树和寻找最优路径,以及更多地考虑前后信息的展现策略。这对于设计师的水平来说要求变得更高,而且职责会变得更广。
在对话里,设计更偏向策略及内容的设计(后端),交互更多考虑内容如何与用户互动(前端)。
未来的对话式交互
随着语音对话的成熟,更多的操作和内容将以语音对话的形式承载;图片和视频等浏览内容仍需要界面来承载,但不一定依赖屏幕,传统的屏幕界面概念可能会逐渐消失,VR和AR界面会成为更好的载体,语音对话如何与未来的界面进行交互是一个很好的话题。
在未来几年里个人助理可能渗透在不同领域里,由一个个人助理如Siri、Cortana控制每一样电子产品,它名副其实就是一个个人数据中心。当AR和VR接入该数据中心时,个人助理也应该可以对AR和VR界面进行操作。因为现实是三维的,所以AR和VR界面也会是三维的,界面的信息可以增加一个维度展现,展现的信息量可以认为是一个爆炸性的增长;用户对界面的操作从手指的精细操作逐渐发展到身体也可以对界面进行粗略操作,但身体的长期运动处理信息时会导致人类感到疲倦,所以非常有必要有一个方便的操作方式帮助人类,这就是语音对话交互。目前三个系统都在独立发展,但后期对话式系统与VR,AR系统应该属于同一个系统,就像钢铁侠Tony Stark的JARVIS智能系统。
最后想说
对话式交互将逐渐改变人类的生活和习惯,未来的生活是怎样的正是我们所兴奋和期待的:)