用户体验无疑是对当下以用户为核心,产品设计重要组成,例如智能产品开发,服务设计等内容。但客观上,用户体验是反映用户主观感受的内容,因此产品经理等研究人员对其的判断也多基于自我认识,无法重复验证。产品设计也就变成了类似赌博式的投资,为了避免这种情况,全世界都在研究如何将用户体验数据化,客观化的方法。作为产品抉择者,深入了解这些最前沿的方法,思维是至关重要的。
一.两种描述用户体验的思维和方式
进行用户体验度量的第一步无疑是“如何描述用户体验”,我们需要将用户体验的衡量转化为具体的问题和语言。例如“对于一个咖啡店的用户体验。”我们可以将其分解成几个维度,例如:便捷感受,休息感受,咖啡感受等等。由此衍生的内容可以进行具体化,包括客观的观察和主观的报告。例如,可以同时测量用户在购买一杯咖啡上所花费的时间和用户主观上认为的便捷程度,在比如在休息感受维度,可以客观上的测量用户在咖啡馆里所待的时间,也可以进行主观评测等等。一般的用户体验度量,由于其具有非常强烈的主观性(本身研究的就是用户的感受和想法),因此在测量时常常会采用客观+主观的方式进行收集。
需要注意,在很多时候,我们并不清楚有哪些体验维度可以进行测试(如上述例子中的便捷感受,休息感受,咖啡品质的感受等)。如何解决这个难关?就需要研究人员或者设计师对于这个行业有一个了解。同时也需要理解,这些预设的作用,是为了加强数据之间的关联性从而读懂数据。在数据收集过程中,我们最最核心的是去客观的描述用户感受,甚至可以暂时将其维度,因果关系等已经存在我们脑海中的定式抛弃,来进行纯粹的描述这些用户行为(感知)。至于分析与界定的部分,我们留在数据挖掘与处理部分即可。“预设”的好处在于,用户体验度量将会有一个明确的方向,容易暴露问题,迭代产品,因此常常被用于改进式的设计,例如,App的迭代,空调的迭代等。相反的,没有预设的,纯粹描述行为的数据收集,则能够很好的打破思维定式,从数据本身中获得用户期待和用户行为等关键等,给产品开发,改革进行参考。例如,第一辆纯电动汽车,第一款智能手机等。再开展用户体验度量之前也需要明确整个项目目标是什么,从而决策合适的方法。
二.用户体验问题设计原则
关于问题的设置有许多技巧,详细的可以参考戴力农老师的《设计调研》。我在这里列出三个最主要的原则。
避免答案诱导:例如问:“是否喜欢这款产品?”这样子对于一般的无感觉用户,这个问题常常会产生“喜欢”这种答案,而一般采用的方式是“您对这款产品的态度是?A.喜欢 B.一般 C.讨厌”。需要考虑不同情况下,问题本身对于用户的思考方式影响。这是度量客观性的第一保证。
完备性:依据问卷性质,可以进行问题的设计,从粗略到详细,从ABC到百分比,从评级到打分。但不变得是,让用户的直觉反应能够在提供的选项中得到安放之处,而尽量避免纠结。以我之见,应当首先满足完全性,在再这个基础上增加直观性。例如在一般是否命题总,常常会采用三级“-1,0,1”表示“否,不知道,是”。“直观性”的需求是非常考验能力的。研究人员需要预先设想尽量全面的用户反映来进行措辞,又需要避免诱导。
可数据化:最后一个原则是可以进行数据化,从而进行之后的数据运算。无论是客观指标例如,温度,湿度还是主观评测,例如便捷感受,满意感受等。都需要进行在数据上的转换。虽然想本身就是数据的指标可以直接带入计算,但这并不是越精确越好。承建上面咖啡馆的例子,我们需要调查咖啡馆温度与体验的关系。在获得准确的温度之后,由于人的温度感受是非常模糊的,只有数个感受:“热,较热,舒适,较冷,冷”。依据人体感受区间直接进行转化是可取的。一方面是减低之后数据处理的难度(降维),另一方面这些数据与主观感受更为匹配,因此得到的结果更为准确。另一方面,对于开放性问题,例如。“建议类”问题,就不适合作为用户体验测量的数据收集。当然,不可否认,这些回答中包含着许多宝贵的信息,但这为之后的数据处理带来了很大难度,当前对于这类问题仅有依赖研究者本身的素质,而无法进行重复性验证,也就是不客观的反馈。因此在这里被剥离。幸运的是,现阶段随着自然语言处理等机器学习技术的发展,通过“关键词”“情感化”等方式给可充分的想象力,有兴趣的同学可以研究一下。
在满足以上三个原则之后,只能算是可以开展用户研究了。落到更具体处,还需要考虑人员构成,区域因素等等。这里就不再过多阐述。
三.案例分析--系统可用性量表(SUS)
相比较介绍系统可用性量表而言,其设计思路和验证为什么这个量表的可行性更为重要。在理解了其设计方式之后,或许就能够突破原先的应用领域如“应用迭代,网页迭代等”而进入到更为广泛的领域。
SUS是在评估系统或产品感知可用性时最广泛的工具之一。他最初是由John Brooke在1986年编制的,它包括10个陈述句,用户需要对于他们同意这些句子的程度进行评分。其中一半的成数据是正向叙述,另一半是负向叙述,每个句子都使用5点同意标度,并给出了一个方法把10个评分合成到一个总分上(之后我会详细探讨降维方法)。
SUS计算方法
首先需要把各个项目的分数加起来,每一个项目的得分在0到4之间。项目1,3,5,7,9(正向描述)的得分是x-1(x为用户评分),项目2,4,6,8,10(负向描述)的得分是5-x(x为用户评分)。然后把总分乘以 2.5(为什么是2.5?将在下面介绍) ,就得到一个总的SUS分数T,区间在0~100之间。T则表示在这项产品上100为完美的产品体验,T为T%的产品体验。需要注意这是一个相对概念。分数高并不能说明你的产品在市场竞争中一定优秀。针对不同的领域T值分布不同。一般需要进行多种产品SUS分析才能确定其市场地位,也就是有效的。同时,两者的SUS差并不能具有绝对价值,例如65与67的SUS,差值2是无意义的。但是阈之间的比较是有价值的看到网上某些文章将其当成了绝对概念,特此说明。但基于前辈们的大量研究-(Tullis,2008;Bangor,Kortum,Miller.2009)在调查了129个SUS研究,得到以下结论
· SUS < 50: 不可接受
· 50~70:临界值
· >70:可接受
为什么是2.5?
我第一次接触的SUS的时候就有一个问题,为什么是2.5?不能是其他数字?实际上,其他数字也完全可以,只要不是0。2.5是为了让最高评分(10*4)转化成100的百分比。表示最完美数值,这并不是关键,最差评分(10*0*2.5)转化为0。理论上所有的产品分数将完全的在这一条0到100的轴上展现,从而进行产品之间的决策。如果是3,也没有关系,只是说明完美值是120。这里是最简单的降维思想,各个项目对于SUS分数的贡献值是相等的,没有层次之分。因此这也只能算是一种非常简单的度量方法。之后,出现了多维度的度量方法,赋予不同项目已不同的贡献值,从而进行更准确的度量。
e.g :SUS1=65 与 SUS2=70 之间的关系是非常暧昧的,我们不能够决断SUS1产品就比SUS2产品劣。但是对于40和80的产品基本谁好谁坏是马上能够判断的
为什么采用正向叙述与反向叙述?
这个设计的初衷是为了保证数据客观性。多数人认为是为了能够使参加这“保持警觉”。但是也有声音表示,这样的混杂描述会让用户产生困惑,导致错误回答比例增加。后来有学者对于全正向描述,和原先方式进行比较27份数据集,得到有编写错误(制作人员)的SUS数据占比11%,用户填错的SUS数据占13%,但两者的差异性不大。因此,比较建议使用全正向的描述方式。由此可见,项目的语句设计是多么难做。这类的趣事在实际的用户体验领域举不胜举。大家自己去找吧。
SUS拓展
在后来的研究中,人们发现SUS实际上有两个因子(维度)可用性因子项目1,2,3,6,7,8,9;与易学性因子(维度)-项目4,10。进行某一维度上进行类似的粗粝,例如可用性指标上乘以3.125得到了可用性比例,在易学性上乘以12.5就得到了医学性比例,就可以比较简单的画出雷达图来进行多因子之间的比较。
后记
除了SUS之外,还有许多量表,例如likert量表等等,这类资源很多,但是也只停留在比较粗浅的层面上,如果需要更深入的研究下去,比如,有哪些维度可以进行比较?如何赋予差值意义?等等这些问题,就需要更高级的数据处理方法,而这些内容无疑是对与当下智能产品开发,服务设计等等,以用户为核心产品设计的巨大支持。我也将在之后几篇文章中介绍一些数据处理算法。