可靠性:当重复测试的时候,是否还会的到与原来一样的结果。要考虑解决可用性问题花费的成本和收益之间的问题。这里设计置信度问题,置信度是用户在一定时间范围内完成任务的百分比。置信度低到一定程度才值得去修正这个可用性问题。因此对于实际开发来说把目标定在80%的置信程度就可以了。(这里给出的确定测试用户人数的方法有不太能直接操作的地方,这里就不记录了)
有效性:所测试的结果是否能够真实地反应出想要测试的可用性问题。典型的有效性问题包括选择了不恰当的用户、给出了不当的用户测试任务、没有考虑时间约束和社会因素的影响。
6.1测试目标和测试计划
明确测试目的,是对界面进行形成性评估还是总结性评估。
形成性评估:主要目标是了解界面细节方面的优劣,以及如何改进设计。典型方法是边说边做。
总结性评估:目的是评定界面的整体质量,例如2选一,或者了解竞品好在哪。典型方法是度量型测试(给产品的易学习性、效率、专管满意度打分、量化。参考本书第2章)。
测试计划
计划中列请:测试目的、时间、地点、用时、硬件设备、软件、系统版本、系统响应快慢、测试人员、测试用户、具体测试任务、用户完成测试的标准、测试时用户的辅助帮助、收集什么数据、界面是否成功的标准。
测试预算
包含:咨询专家、测试人员的工作、软件开发人员的工作、测试用户、设备、场地、耗材。
试点测试
正式测试之前进行试点测试,以发现测试计划的不足,可以找同事,最好是测试用户。修订测试任务,或者分配合适的时间。
6.2招募测试用户
寻找测试用户的主要原则,就是所选测试用户越能代表预期使用系统的用户越好。
测试用户除了是最终用户,也可以试销售人员:把产品的可演示性做好,能促进销售。
以下为如何招募:
如果是为某个公司的用户定制,那么测试人员就是使用的员工,要注意用户的资历等。
针对特定类型用户的设计,比如医生、律师等,就要从几个不同的顾客哪里找测试用户。
面向普通大众的产品,可以通过中介、招募学生等手段来招募测试用户。
新手用户还是熟练用户
对这两类用户分别测试,测试任务中有些会不同。
有时需要就界面上用户不熟悉的地方进行培训,培训内容不要涉及主要的测试任务。
用户间还是用户内测试
对于比较产品或者版本的可用性测试,有两种基本方法来选择测试用户:用户间测试、用户内测试。
用户间测试是在不同的系统测试中使用不同的测试用户。隐患是用技能存在巨大个体差异,一次可能需要一定数量的用户数,来抵消用户个体的差异。并随机分配组。
用户内测试就是让所有测试用户来使用所有被测试的系统。这种方法能抵消用户个体差异,但是用户进行完第一个系统后再去使用其他系统就不是新手了。因此最好随机分组,进行交叉测试。
6.3选择实验人员
最好选择以前曾使用过所选测试方法的有经验的实验人员。实验人员需要具备测试方法方面的知识,也要有大量有关应用程序和用户界面方面的知识。
设计人员作为记录员,可用性专业人员和用户交流。
6.4用人来进行测试的伦理问题
测试前:
在用户来之前准备好所有的东西
强调测试的对象是产品而不是用户
告知用户软件是新的,没被测试过,可能存在问题
让用户知道他们随时可以停止测试
解释所有的记录、监控设备
告诉用户测试结果会被完全保密
在开始前回答用户的所有问题
测试过程中:
让用户尽早体验到成功
一次给用户一个测试任务
在测试房间保持轻松的氛围,提供零食饮料中间休息时间
避免干扰,关上房门贴出免打扰,关掉电话
不要以任何方式表现出用户正在犯错误或者用户操作太慢
测试观察人员数量保持最少
不允许用户的上司观看测试
如果测试过程不愉快,在必要时可以停止
测试之后:
向用户说明是他们帮助发现了要改进的地方
千万不能以可以区分出具体用户的方式报告测试结果
只有在用户同意情况下,才能在可用性小组外公开录像内容
6.5测试任务
测试任务尽可能代表系统的最终使用,大致覆盖用户界面上最重要的那些部分。
测试任务要设计的比较小,保证有限时间内完成,但也不能太小。测试任务应该详细精确说明用户执行后产生什么结果。
测试任务书面形式提供给用户。实验人员要回答用户关于任务描述提出的问题。
测试任务不要轻佻、滑稽或者有冒犯,应该是面向业务处理的。任务难度由简单到复杂,帮助用户建立信心。最后的任务也相应的要设计的让用户感到自己完成了一些事情。
6.6测试的各个阶段
1、准备
在实验的准备阶段,实验人员应该确保测试房间已经准备好,计算机系统已处于测试计划中规定的初始状态,还有所有准备的测试材料、指南和问卷都已经准备就绪。
2、介绍
参见本文6.4的内容
介绍完成后交给用户测试指南和测试任务,询问用户是否有疑问。
3、测试
测试期间,实验人员通常不要与用户进行交流,也不要有任何个人观点或关于用户操作好或者不好的表示。
对用户明显停滞感觉不快的时候,实验人员要提供帮助。
有多人参与实验的情况下,要指定一名实验员,其他成员有疑问不能在测试进行中提出。
4、事后交流
测试之后,要求用户填写一份主观满意度问卷。
然后再与用户进行讨论,请用户对系统使用情况进行评论并提出改进意见,并请用户回答实验员的一些关于测试中的疑问。
测试用户离开后,实验员尽快检查测试结果,标记资料等,撰写简短报告。完成试验后,撰写完整报告。
6.7绩效度量方法
评估是否达到可用性目标(本书4.3节),以及比较竞争产品。对用户绩效水平的度量通常是通过让一组测试用户完成预先规定的测试任务,收集所用时间和出错率等数据。
关于度量的一个主要问题是所度量的东西可能与真正想要评估的特性关系不大。比如像评估系统的可用性,评估的东西可能是用户完成任务的时间,完成任务的时间并不能完全代表可用性。
度量方法中包含:量化指标(测试任务)、度量绩效的方法(如何进行用户测试)、收集研究数据的方式、明确定义任务什么时候开始和结束。
6.8边做边说法
边说边做就是让测试用户在使用系统的同事把他们的想法说出来,可能是单个最有价值的可用性方法。
优点是1、能从很少量的用户那里收集定性数据。2、能在用户操作时就显示出用户在做什么和为什么这样做,而不必以后再来推断分析。3、获得用户喜欢和不喜欢的小感触。
缺点是1、不适用于大多数类型的绩效度量。2、边说边做用户犯的错误比沉默用户少,速度慢,测试结果可能不准确。
可以在边说边做测试之前,为用户演示如何边说边做。
协同交互方法
边说边做的一种变形叫做协同交互,就是让两个测试用户同时使用一个系统。
优点是比单一用户边说边做自然一些,人们习惯于在共同解决问题时说出自己的想法。
缺点是用户可能有不同的学习和使用产品的策略。
这个方法适合对儿童使用的用户界面的可用性测试。也适合容易找到大量用户并且费用低廉的情况下。
回顾式测试
如果测试期间录了像,就可以让用户回顾录像的内容来获得额外信息,叫做回顾式测试。在难以找到有代表性测试用户时尤其有用。缺点是每个测试的时间较长。
辅导方法
辅导方法是在测试用户和实验人员之间有清楚的交互过程。测试用户可以问任何与系统相关的问题,辅导员尽可能回答这些问题。
通常关注新手用户,发现这类用户的信息需求。可以用在面向用户群小、特殊或者报酬高的情况。还能用于想用熟练用户测试却找不到的情况。
6.9可用性实验室
有专门的试验室最好,没有也可以。
可用性实验室通常有隔音的单面镜,隔开观察间和测试间。测试前可以请用户参观观察间。还可以在观察间后面设立讨论间,让第三组人员观察讨论。观察间可以放置摄像机。
需不需要录像
实际上测试本身来说不太需要录像,发现的问题当下就能记录下来,查看录像消耗时间不如进行更多用户测试。
但是录像,能回到录像带中准确调查有多少用户遇到同样的问题,耽误了多少时间。使用录像带容易说服不同意见者。同时配备大量设备,可以给可用性工作形成广告价值。
没有摄像机的录像
录屏和声音。缺点是用户不在画面内。优点是用户能感觉放松一些。
便携式可用性实验室
一个记事本,一个提供测试的硬件设备、便携式录像机、必要时可以有话筒和三脚架。
可以在用户不愿去某个固定场所时进行测试。
可用性信息亭
将界面和测试设备显示在公司的人流大的地方,收集用户和路人的意见。