工作中常常要跟形形色色的策划打交道,发现如果从数据运用的角度来看,策划们大概可以被规为四类:
逗逼策划:只看自己做的功能或者活动的运营数据,例如参与率、完成率;
正常策划:看产品的总体数据,例如新增、留存、活跃、会员等;
优秀策划:除了总体数据,还会关注用户的行为数据,进行聚类和节点分析;
牛逼策划:在产品数据的基础上,结合用研的结果,进行有效的综合分析。
今天主要谈的是用户行为数据的聚类运用问题。
每个用户每次从登陆产品到下线的整个过程,都会进行一系列的操作。这些操作中大部分是可以被记录下来的,我们称之为行为节点。在产品中我们通过埋数据点的方式来获取用户的这些行为信息,从而进行分析。至于具体怎么埋数据点,不在本文的讨论范畴,问问搞运维的同学就明白了。
步骤一:梳理数据点
运维的同学码程序埋上数据点,但他们本身并不知道哪些节点是具有分析价值的,因此策划和用研的同学需要先将要添加数据点的功能和入口梳理出来。我们可以用Mindmanager等软件对产品的主要功能进行拆解。拆解当然是越细越好,需要注意的是,同一个功能模块里边往往包含多个值得记录的点,这时就需要我们先明确好研究的目的,确定到底以哪个点作为分析的基准。
举个例子,一个包含小游戏的活动页面,可能包含“点击进入游戏”,”小游戏通关“,”领奖“等多个可以记录的点,那么我们应该选取哪个点作为分析标准呢?如果只是想知道用户登陆之后是否有参加过这个活动,那么我们可能只需要记录“点击进入游戏”就行了。
步骤二:选取随机样本进行记录
埋好了数据点,接下来我们就需要选取合适的时间段、合适的样本进行跟踪记录。这一步主要是由机器完成,我们要做的就是耐心等待。
先说所谓合适的样本,指的是根据你的研究对象而定。例如,你研究的是会员用户,那么你可能只需要选取10万个随机的会员进行追踪。为什么要随机而不是全部会员呢?因为10万条的数据,可能你处理起来顶多是电脑一卡一卡,但100万条数据处理起来,搞不好就是直接把电脑崩掉了(/≧▽≦)/ 为什么要10万呢?其实样本的量太少了结果信度不足,但是过多了会产生边际效应,量的增加所能起到的作用会不断衰减。实际上跟踪10万个用户的结果,你会发现中间可能有2万的用户的行为并没有太大分析意义,例如有些用户的行为过少导致他们无法被归类。那么到底应该要取多少才最好呢?实际上个人认为并没有最优解,有一些关于样本数的统计学公式可以利用,但是实际还是根据实际结果不断调整的,多一些总比少一些好。
再来所谓合适的时间段。追踪哪个时间段?追踪多久?假设基础数据表明你的用户在周日登陆情况最佳,那么可以考虑追踪周日这一天的用户行为。更加靠谱的方式是连续追踪多个星期,譬如一个月内每个周日的情况。实际上用户的行为是很容易受到活动等因素影响的,譬如某个需要通过“种菜”来获得丰厚奖励的活动很可能让用户在“农场”这个功能模块中的参与率和停留时间都异于正常水平。
步骤三:对数据进行聚类处理
终于等到跟踪结束了,兴奋地拿到后才发现“哇,这么海量的数据,到底要怎么用起来?〒▽〒” 别急,先用Excel做一下基本的处理。把每一项的参与率、停留时间等理顺了(开发给的数据格式往往是不适合人类看的)。需要注意的是,参与率与停留时间,活动与基础功能,这些数据是不能混在一起进行聚类的。活动一般是短期的而基础功能则是长期的,它们对于用户而言使用的模式完全不同,例如大部分用户会参与UI上标识突出的活动,而某些长期存在的基础功能则不一定会进入。因此,如果你研究的是用户在基础功能上的参与行为,那么就需要将活动的影响尽量剥离开来。
随后,我们需要使用SPSS将EXCEL的数据导入进行。什么,你不会用SPSS?那找个《SPSS教程》看看吧,就你宇宙无敌的策划头脑学起来应该是小CASE。假设不考虑停留时间只看基础功能参与,在SPSS君看来,你喂给它的数据实际上就是一堆1和0,1代表用户使用过这个功能,而0代表没有。这时你只要使用SPSS里的聚类分析,就可以请SPSS君从数学的角度,判断哪些用户的行为具有相似性,从而得出不同的类别的用户了。值得注意的是,聚类的方法有很多种,常用的例如K均值聚类,要聚出多少类是由你自己输入确定的,因此需要以不同的聚类数量尝试多几次,看看每一次聚出的类别的代表性如何。毕竟工具的聚类它完全是从数据的角度来进行的,是否具有实际的代表意义还需要主观判断。什么,主观判断会不会不靠谱?这就是为什么需要多跟踪几个星期了,伙计。
现在,对于每一类的用户,你可以统计出他们在各个基础功能的参与率,从而为他们定义标签。例如你会看到有一类用户,在”聊天室“、”花店“、”多人游戏庁“这几个参与率上明显高于其它类别,那么你也许可以给他们一个“强社交倾向用户”的标签。
需要注意的是,无论采用何种方法进行聚类,得出的结果中总会有一类属于无法被归类的用户,我们称为发散型用户。这些用户的行为可能过少或者过多,导致SPSS无法找到数学的关联性。但这并不意味着这些用户没有研究价值,相反的,这批人中有可能包含两种用户,一种是快要流失的用户(行为很少),另一种是长时间在线的忠诚用户(行为很多)。假如你发现聚出的结果中发散型用户占比很高,那么你就要小心了。
上述的聚类方法和分析方法实际上还是比较粗糙的,我们还可以进行诸如降维等精细化的操作。至于更多高级的算法,笔者也在摸索当中,不过相信大部分策划的工作里都不会去涉及。
步骤四:与用研数据进行交叉分析
”噢耶,原来用户有这么几个类型的!“别高兴得太早,用户行为的数据只能告诉不同类别的用户使用你的产品时会倾向于做哪些事情,但它并不能告诉你为什么他们要这么做?这时,就需要通过用研的方法了解用户行为的动机和情感需求。一个比较简单的例子,我们是否可以了解他们喜欢哪些基础功能呢? 前述我们进行了功能的拆解,那么现在我们同样可以讲这些功能写入线上的问卷中,通过投放问卷来了解用户对各个基础功能的喜好程度。
通过行为数据与偏好数据的交叉对比,我们可以做出类似下边的散点图:
特别需要关注的是“喜欢但玩的少”和“不喜欢但玩得多”这两个象限。可以看出”强社交倾向“这个类别的用户,对”聊天室“的参与度很高,但是他们的喜好程度却很低。用户为什么会”言行不一“呢?通过进一步的定性访谈或者定量问卷,你可能会发现聊天室的体验比较糟糕,这群用户习惯于去聊天室里头找人,然后转移阵地到外部的聊天工具里头去聊。下一步,如果你觉得聊天室对于提高留存至关重要,那么考虑下个版本重点优化下聊天室?
互联网产品的好处之一,就是可以跟踪记录用户行为这笔宝贵的资源,这在传统行业是难以做到的。因此,作为策划就更应该把这笔资源利用起来。