产品一但上线有用户使用,质量问题产生的影响与业务用户的规模是正比例,也就是说,用户规模越大,同样的问题产生的影响越大。
当一个业务线的规模增长到一定的量级,一个较小的异常,对于线上的用户的影响也是极大的。甚至还会产生的一些其他层面的影响。比如品牌影响。
当线上异常发生时,如何降低对用户的体验影响和对业务的影响面。需要在研发过程正式上线之前,提前准备和思考。
异常的产生主要有两种,一种是基于已经知道的,在团队的认知范围之内的,可以提前在研发过程中进行规避和解决;一种是超出团队认知范围之内的,也就是说,大家没有想到的一些异常点,这些异常点在用户的真实使用场景中会存在。
第一种的异常的处理和优化,主要在于提升团队的认知和对于质量问题的把握,质量问题是一个责任心的问题,高质量的产出,对于研发人员和测试员的自我要求较高,需要花费额外的时间对质量进行相关的设计和验证。
第二种的方式,重点在于如何降低异常产生的影响面,同时也需要快速的发现问题及解决问题,总结来说就是具备。1)小流量的精准的验证能力;2)快速的发现潜在的风险能力;3)及时地进行止损能力。
避免随机试错的目标就是有目的试错,研发过程和测试的过程只能说明在特定的环境下测试通过的流程是没有质量的问题的,试错的目的实际上是为了发现超出识知的质量问题。而不是知道有问题,带着问题去上线;或者是知道有试错的机制或流程的保证可以降低出错的影响面和成本,而麻木大意,一些低级的,显而易见的问题,没有经过仔细的Review,就直接交付给用户,这种方式完全错误的理解了可试错的流程的机制的本意。