全文概要:用户会假设智能助手难以胜任复杂的任务,也会认为在社交场合下与之交互比较尴尬。
背景介绍
虽然类似《星际迷航》中随处可见的与电脑进行语音交互的未来场景还未到来,但朝着这个方向的显著进展已在近些年里崭露头角。智能助手,例如 Alexa、Siri 以及 Google Assistant,正变得越来越普遍。
主张使用智能语音助手的大量隐含价值在于自然语言的使用。本质上来说语言是一种社交界面——它的形成是为了帮助我们与他人交流。那么语言的社交属性是如何造就我们跟以之为基础的用户界面之间的交互的呢?这也是我们要对语音助手进行研究的许多问题之一。
为了更好地理解智能助手如今所造成的质疑,以及它们能在哪些方面帮到用户,我们做了2次可用性研究(一次在 NYC,另一次在湾区)。共有17人受邀进入我们的实验室参与到特别的研究环节,5位在纽约,12位在加利福尼亚,他们都是频繁使用过至少一款主流智能助手(Alexa、Google Assistant 和 Siri)的用户。每一个环节均包含可用性测试和访谈,而在可用性测试中,参与者使用 Alexa、Google Assistant 还有 Siri 完成了研究人员所指定的各项任务。
这篇文章对我们在研究中的主要发现进行了总结,包括用户感知、心智模型以及使用这些智能助手的社交维度,此外还有另一篇文章讨论了关于可用性与交互的一些发现。
我们发现用户对这样的事实有着高度的认知:所谓的智能助手其实并不足够智能。虽然参与者无须完全正确地理解智能助手的能力极限,但他们对这些设备的看法却也各不相同,有的把智能助手看做诡异或者幼稚的玩意儿,也有人简单地把它当作电脑的替代品。我们离潜在的未来状态还很遥远,到了那时人们才会信任这种电脑化的助手,就像信任优秀的行政助理一样。
拟人的特质
语言的社交天性使得人们将拟人的特质投射到电脑上。我们的多数参与者在提到智能助手时都会使用人称代词(“她”或“他”)。少数人甚至会使用礼貌用语,比如“请”或“谢谢”,或者以“你认为…”、“你能…”这样的方式来提问。
他们常常使用人类隐喻来谈论智能助手。例如,当 Alexa 发出哔哔的声响,可能在表示无法理解某位用户的意思时,这位用户说道:“她的大脑一片空白。她仿佛在表达‘这位女士到底想从我这儿得到什么?还是别来烦我吧!’”
另一位参与者告诉我们,“当她(Siri)不能理解我的命令时我会骂她,然后她会回复些有趣的话——倒也还蛮欢乐的。” 而另一个人却对这种不合理的回答表示理解:“通常情况下我并不会问这些复杂的问题,因为这需要进行较多的思考,因此它才无法正确地回答问题。我平常所问的问题没那么复杂,它们不需要考虑那么多。”
参与我们研究的人都能意识到这种拟人论调,而且很多人对此表达了嘲笑或批评。一位 Google Assistant 的用户在提到智能助手时故意使用“它”,并且还说,“我要的只是答案。我不想把它当做人一样跟它说话(因此我不喜欢说’OK Google’)。AI 这玩意儿把我吓得够呛的。”
参与者普遍认为智能助手在感知情感方面表现糟糕,根本无法通过语调和用词来明白他们有多沮丧。对于是否会对着智能助手使用俗语或习惯用语参与者们抱有不同的态度:有人觉得“助手”可能无法理解俗语索性就避免使用;也有人说他们试着用过感觉它做的还算不差。
这些用户并不期待智能助手能够理解合适的语义。例如一位用户问了 Alexa “Mountain View 的一室户公寓要多少钱?”,但她认为这个问题对于 Alexa 来说太过含糊,因为在她看来,“公寓”这个词隐含的是“租住”的意思,而如果她想买的话用的会是“condo”。当然了,她并不指望 Alexa 能够分辨其中的差别。
用户会在什么时候使用智能助手
正常情况下我们不会因为在公共场合与他人交流而感到内疚,对于智能助手来说就另当别论了。参与我们研究的用户表现出了尤为强烈的行为偏好,他们只有在家里或者独自一人时才会使用这种智能的语音助手。绝大多数的用户都表示他们不会当众跟 Siri 或 Google Now 等手机上的“助手”交互,只有少数几个人会在走路时用来查询方向。
其中一位参与者坦率地说道:“我通常不在公共场合使用(Siri)——我就是觉得那样会显得有点尴尬。我自己也会感到难堪。我也没看到有其他人会在公共场合使用它。”
不过这些用户告诉我们他们通常会使用智能助手来处理简单的、非黑即白的问题。这常常发生在他们腾不开手的时候。另一个他们常使用“助手”的场景是娱乐:多位参与者说他们或他们的家人(通常是孩子)偶尔会喜欢听个笑话或者跟智能助手玩场游戏。其中几位为人父母的用户喜欢使用 Alexa 来娱乐他们的孩子,从而让他们远离带有屏幕的设备,例如平板电脑和手机。
在询问智能助手有趣的、略显傻气的问题时(比如有关助手的个人偏好,比如说它最喜欢的食物),他们其实是明白他们所得到的回复并不是真正的人工智能的,这只是工程师团队预先编程好的一系列玩笑而已。
与智能助手交互时所用的语言
说到参与者是以什么样的方式跟智能助手交谈的,可以分为这两类:
1. 一类人用的是跟人说话时一样的语言结构。这类用户经常使用礼貌的询问语句,并用“谢谢你”来结束交谈,他们常用来表达问题的方式有:“请…”、“你认为…”、“你能告诉我…”等。他们对待智能助手的态度相当积极。
2. 另一类人为了提高识别的准确性会让语言更加简洁高效。我们在这类用户身上看到了行为的连续统一体——有的为了让问题能以关键字开头而改变词语顺序;有的避免使用冠词“a”或“the”;也有的直接将智能助手理解为搜索引擎的语音界面,他们会将问题压缩成几个关键词,不保留语法结构(如“OK Google,七月上周伦敦的事件”)。
有这样一个例子,一位参与者向我们反馈其在询问“Storm King 附近的餐厅”和“Storm King 餐厅”时得到的是截然不同的结果,但“如果是人的话不管怎么问都会理解我的意思”。
有的人会在询问时保持问题简短,只包含几个关键词。其中一人说:“我不会把它当人一样跟它说话——除非我的问题是那种 5W1H 类型的(Who, What, Where, When, Why, How)。我只有在跟英语是第二语言的人才会那么说,我怕他们会被句子中太多的词语给弄糊涂。”
然而有些参与者在提及智能助手时会使用性别代词,而绝大多数参与研究的用户则避免在询问时使用“it”和“this”等——他们更喜欢直接使用名称来进行查询,哪怕它又长又复杂。他们也不期待“助手”可以理解“this”和“it”真正指的是什么,尤其是在这些代词的先行词是之前的问题的一部分的情况下(但这恰恰是真正的自然语言识别的关键所在)。尽管智能助手越来越善于追问型的查询(Google 最近为其 Google Assistant 开发了“对话”的功能),但多数参与者早已不期待它们从一个问题到另一个问题之后还能保持上下文。一位参与者说道:“(Sifri) 通常不保存那些东西的(短信草稿)。她一旦做完了某件事情,就再也不管了。”
智能助手能处理什么样的问题
虽然参与研究的用户能通过语言跟智能助手交互,还将人类的特质投射到了电脑上,但对于“助手”可以胜任的事情却也有着清醒的认识。有人说智能助手如同小孩一样,还无法理解复杂的事物;另外的人则把它比作失聪的老人。其中一位用户表示你不能“说太久,因为(助手)会分心”。还有人说所问的问题最好不要超过十个字。但在有不少参与者看来,智能助手比人类还要厉害因为它“无所不知”而且客观公正(没有情感)。
(看到过科幻电影中的未来用户界面之后,我们应该注意到了缺乏情感其实是种缺点,比如说《星际迷航》中的 Data 中尉。不过就目前来说不必担心电脑的感觉还算得上是某种优势。)
智能助手无法处理复杂问题
用户认为他们无法从智能助手那里得到复杂问题的答案,这类问题的复杂性总是跟是与否或者需要分解后才能处理的问题强烈相关。有用户想让 Siri 和 Alexa 找出 Adele 的下一场纽约演唱会的时间,结果根本就得不到答案。也有人这样来看待智能助手:“你就把它当做孩子。不要询问复杂问题,但可以问它天气、数学、运动、日历、网络等相关信息;它也不能帮你处理税务,可能也无法帮你点个披萨。”(注意,“孩子”的比喻也是将助手拟人化了。)此外,还有人认为人们能让智能助手做的最复杂的事情是基于位置的提醒。
也有人认为即便是复杂的问题智能助手也是可以回答的,只要你“学会如何问问题”。这位参与者将智能助手比作文件管理系统:关键的地方在于要找到可以访问数据库的正确问题。、
然后某位用户抱怨说她根本就不想考虑如何询问正确的问题。许多参与者都将效率看作一项重要的考量,这决定了他们是否愿意向智能助手进行提问——只有它能快速地“自己处理”,他们才会愿意跟“助手”交谈。该观点也是参与我们研究的人的心智模型的关键指标——它反映的一个认知在于,使用智能助手应该是简单的,而不需要大量的交互。
例如,有几位参与者向我们描述了使用“助手”设置计时器要比起其他设备快得多,但是要查询周末到 Mountauk 的交通状况的话,还是使用 Waze 之类的应用或在电脑上通过 Google Maps 来查询会更方便一些。使用何种方式取决于这背后的消耗与收益分析,它平衡了用户自己完成任务的交互消耗的预期与他们对于“助手”是否可以完成任务的期望。
用户不信任智能助手的理解、判断和意见
参与研究的所有用户都表示他们不会通过智能助手获取以意见为基础的信息,例如推荐。他们怀疑任何涉及到判断或意见的任务,他们也从不会询问有关个人的或高度主观的信息,比如说度假时应该在 Prague 待多久。一位用户说:“我会在当地论坛查询有关 Prague 的信息;我不想要跟别人一样的旅行。”
除了主观信息之外还有这样的内容会令他们质疑:有用户认为 Alexa 根本不可能告诉他昨晚的比赛中谁是凯尔特人队的明星球员,因为这需要对信息进行理解;于是他把问题描述为“凯尔特人队上一场比赛中得分最高的人”,Alexa 并没能回答这个问题,他只好又把问题更改为“给我凯尔特人最近一场比赛的得分统计”(这两个问题都有客观的正确答案,并不需要做判断)。
一位参与者指出了智能助手与人类的另一个关键区别:如果你的问题模棱两可,语音助手并不会让你进一步明确它。比较典型的是,人类会通过后续的询问来回复模棱两可的陈述,而语音助手在未获得更详细信息的情况下就会“急着”执行请求。
智能助手能够处理以事实为基础的任务
这项研究的参与者纷纷表示特定类型的简单任务对于智能助手来说是很适合的。“助手”可以正确回答的问题都是基于事实的,例如查看天气、查询某位名人的年龄、获取前往某个明确目的地的方向以及回顾赛事比分。
心智模型
我们向参与者问了这个问题:他们的智能助手理解了他们的哪些方面。答案都是“并不多”。他们觉得智能助手可能会一直记录他们做过的搜索然后加以利用,却不认为智能助手会自我调整以便更好地服务自己。
有人将智能助手描述为——它“只是”作为 Google 的语音界面进行搜索而已。他们认为智能助手能够回答的只是一系列预编程好的东西,任何不在这个预编程清单中的选项它们都无法回应,只会默认进行搜索。此外,在部分参与者看来,这些智能助手并不是真的“聪明”,甚至都不能算作真正的人工智能,因为真正的人工智能应该要能够根据具体的情境去理解问题,或者可以创造性地解决新问题。
甚至有人说:“在真正实现之前不要再叫它 AI 了。它现在能做的事情并不复杂。它没在学习。人们因为 AI 这个名称对它产生了期待,结果却并不如意。自动驾驶的汽车才能叫作 AI。那才比较接近。”
还有一位用户对 Alexa 做了类似的描述:“知道你所说的话跟理解你在说什么是有区别的。你可能会说’西红柿算水果’,而 Alexa 却不会知道不要把它放进水果沙拉。我不认为她有必要理解这些;或许有一天电脑可以做到这样,它们可以教也可以学。现在嘛,我觉得它更像是一个触发字:这个字加那个字再加上另一个字给出这个答案。如果把这个字拿出来跟另一个不同的字组合,它会给你另一个答案。”
有关信任和隐私的态度
在问及有关信任的问题时,参与我们研究的用户对智能助手表达了如下的担忧:
——隐私和社交尴尬
——总在记录音频并传往云端
——因为误解用户意图产生的后果
——以未授权的方式联系他人
——可能会有导致智能家居相关功能无法正常工作的 Bug
——使用过多流量
在我们的研究中,参与者所表达出来的最主要的担忧之一在于,智能助手总是在进行“监听”(并将音频传到云端)。虽然相关声明表示智能助手只有在通过关键词触发后才会开始倾听,但还是有好几个人对此表达了强烈的怀疑。在研究的访谈环节,有人报告说他们居然看到了平时根本不会购买的产品的相关广告,而他们只不过在智能助手旁边说话时提到过这些东西而已。甚至有人对此进行了测试:故意在智能设备旁边胡乱编造某个业余爱好,不久之后就看到了相关产品的广告推送。
此外,也有用户认为“助手”一直在记录并传送完整的音频文件(并非官方宣称的某种压缩数据)到云端进行分析。某位参与者发现手机未联网时 Google Assistant 居然还能进行语音记录,他/她对此表示相当惊讶。
人们觉得在某些情况下使用智能助手的体验相当糟糕,比如错误或误解会导致严重后果时,最普遍的例子是胡乱购物或通过它来处理工作。
比如某位用户曾通过口述的方式使用语音助手处理一封工作邮件,然后在回家的路上核对邮件时瞬间吓傻了,他发现“助手”居然把他所说的某些话替换成了不合适的词语。因此他才会抱怨说:“这就好比手机突然变成了手榴弹,而我不得不小心翼翼地处理它。”
还有另一位用户,他家里虽然有一台智能空调,但并不愿意通过 Alexa 来操作它,因为他担心它会有 bug,没办法让家里保持合适的温度,害怕他养的宠物会因为高温而窒息,“我爱我的宠物——在这件事情上我无法信任 Alexa。”
智能助手的未来潜力
虽然《2001》、《Her》之类的科幻影视剧有很多这样的例子——人们能在许多复杂的场景下(尤其是涉及到理解、判断和意见的任务)便捷地跟电脑进行语音交互,但参与我们研究的用户却连尝试稍微复杂一点的任务都很犹豫,因为他们不相信智能助手能够处理这种问题。
虽然这些智能系统有在优化,但新功能的可发现性还是较低:在关于这个主题的前一篇文章中,我们提到了用户如何只使用了一小部分智能助手提供的功能,以及他们常常需要记住有效问题的表述方式。发布新功能是件棘手的事情,因为大多数用户都倾向于忽略教程、版本注释以及提示等文档说明。
随着系统能力的提升,我们所面临的一个巨大挑战是如何更新用户目前的心智模型,这样他们才能理解新的功能。比起不断更新的产品功能,用户的心智模型通常要稳定得多,悖论也由此产生:用户不知道用户能够处理比之前更加复杂的问题,他们自然就不会用来处理那些任务,这又反过来减少了可用于提高智能助手能力的训练数据。
换句话说,存在这样的风险——低可用性的智能助手的过早发布将会阻碍高可用性智能助手的未来应用。
总结
虽然智能助手正确理解用户语言的能力得到了快速提升,却还是面临着一些主要的社交及心智模型的挑战,这阻碍着用户与这些系统的自然交互。信任问题和用户的心理预期促使智能助手必须能够处理更加复杂的任务,而不是做做语音记录以及事实查询那么简单。
该文由本人翻译而成,转载请注明出处,谢谢。
原文链接:https://www.nngroup.com/articles/voice-assistant-attitudes/