一、数据采集与埋点
作为整个数据驱动环节的第一步,数据采集实施的质量会直接影响到后续环节的产出。目前企业数据的来源主要是线上数据库的数据,还有一个app和pc端产生的流量日志,记录的是用户在产品上的浏览行为。按照数据源来划分数据采集,分别有线上数据库的数据采集,流量日志的数据采集。按照时效性来划分,又有离线数据采集和实时数据采集。
1.1、 线上数据库的数据采集(离线/实时)
其实实施方案有很多种,不同的企业会有不同方法,比如阿里开源的dataX就是一款接入数据源的工具,可以将多种数据库的数据抽取到我们大数据hive当中,当然也有很多其他的方案,比如sqoop,或者企业自研的方案,之前也有分享过对接mysql的binlog,来实现数据源接入的,使用这种方式可以实现数据库数据的实时采集。当然这里就不讨论具体的实施方案了,不管采用哪种方式采集数据,都需要考虑以下几点:
1:是全量抽取还是增量抽取
2:抽取从库的稳定性是需要关注的
3:做好数据采集的质量监控,比如唯一值,数据量阈值等等
4:线上数据库元数据变更,能否及时感应到
5:老分区的数据发生变更,重刷历史分区数据的情况,这个情况在实际是经常发生的,比如一个月前的订单,用户发起评价,这个时候我们就需要更新一个月前分区的数据。
6:数据源的权限管理,因为这一步采集过来的数据,都是最底层的数据,是整个数据建模的基石,其重要不言而喻,所以权限管控非常必要。
7:数据源的生命周期管理
当然要实现以上几点,需要企业有完备的元数据系统,任务调度系统,任务质量监控,还要遵循一定的数据开发标准,这一步也是整个数据治理至关重要的一步。
1.2、流量数据的数据采集(离线/实时)
流量数据天然就具有流式数据的特点,本身就是实时产生的,所以兼具离线和实时采集的方案。说起流量数据,有两个事情不得不提,分别是埋点和event模型。
1.2.1、埋点
埋点这个问题往往是企业老大难的问题,每个企业多多少少都会存在埋点的问题,从实际的实践来看,笔者觉得主要原因是因为这是一个跨多个部门协作的事情,会涉及到前端,后端,BI,数仓工程师,产品等,每个人对埋点的认识都是不一样的,在埋点方案实施的时候,很可能由于标准执行不到位,最后导致埋点质量低下,造成埋点混乱,埋错,漏埋,要知道埋点是数据产生的源头,一旦发生错误,将造成不可逆的结果。而且公司都是比较注重产品的迭代速度,对数据的关注度往往不够,导致数据的建设工作跟着产品迭代走,往往是比较滞后的。
常见的埋点方式如下:
无埋点、在产品中嵌入SDK
优点:可视化展示宏观指标,技术门槛低,使用与部署较简单,用户友好性强
缺点:无埋点只能采集到用户交互数据,且适合标准化的采集,自定义属性
的采集需要代码埋点来辅助。无埋点兼容性有限,无埋点是前端数据采集方式之一,因此具有前端埋点的天然缺陷,如数据采集不全面、传输时效性较差、数据可靠性无法保障等问题。代码埋点
代码埋点又分为前端代码埋点和后端代码埋点。前端代码埋点类似于全埋点,都是在前端嵌入SDK的方式,所不同的是,对于每一个关键行为,我们都需要调用SDK代码,将必要的事件名、属性字段等写入代码,然后发送到后台数据服务器。后端代码埋点则将相关的事件、属性等通过后端模块调用SDK的方式,发送到后台服务器。这种方式相比全埋点来说,更适合精细化分析的场景。我们可以将各种细粒度的数据采集下来,方便做后续的深度分析需求。其中后端代码埋点,相比前端代码埋点,具有更高的数据可靠性。全埋点VS代码埋点
如果仅仅为了看看宏观数据,并没有精细化分析需求,并且是对客户端做的分析,这种时候全埋点是一种比较省事的选择。如阅读类、词典类工具性APP的企业客户,在其发展初期的产品运营阶段,产品功能较为基础,无明确业务数据、交易数据,仅通过UV、PV、点击量等基本指标分析即可满足需求。如果全埋点还采集了渠道来源信息,则可以进行不同的渠道来源对比。一旦企业有复杂的分析需求,就必须进行代码埋点,否则数据无法进行灵活下钻。前端埋点VS后端埋点
在产品运营的初期,产品功能比较简单,可以采用前端埋点。或者有些行为没有和后端进行交互操作,比如有些游戏是离线运行,就比较适合前端埋点。为了保证核心数据的准确性,我们更推荐“后端埋点”。当前后端都可以实现数据采集时,应优先考虑后端(代码)埋点,尤其在各行业中有特殊业务需求的数据,更是强烈建议通过后端(代码)埋点方式采集。总的来说,后端(代码)埋点,或者“后端(代码)埋点+全埋点”方案,适合有深度数据分析需求的企业。
1.2.2、spm(super position model 超级位置模型)埋点
这是一种新型的埋点方式,来源于淘宝页面每个url后面都有带有SPM埋点代码,SPM的组成其实就是x.x.x.x.x.x.x(x一般表示成一个数字),从第一位到最后一位,分别表示应用.业务.页面.子页面.区块.区块位置.区块内icon的id。这样的埋点方式,可以将用户的操作行为精细化到区块的位置点击,非常细致,符合大数据之'细'的要求,方便后续进行多维度,精细化的分析。
1.2.3、event模型
流量数据如何实现结构化,是一个很大的问题,因为产品迭代非常的快,功能也会日趋复杂,所以流量数据应该也要跟数据库的数据一样,以结构化的形式保存起来,event模型就是来解决这个事情的,该模型是事件形式驱动的。笔者对电商领域比较了解,就以电商app举例子,使用event_type来区分事件类型,比如我在APP点击一下,可以使用event_click来表示,页面曝光一次可以使用page_start来表示,每个事件下面也可以使用其他字段来表示不同的属性,比如使用item_id来表示商品,不确定属性,可以单独用一个字段比如kv来表示,该字段是一个json字符串,或者一个map数组。使用event模型有如下好处:
- 高扩展性
由于是事件驱动的,一个事件可以用独立的事件名表示,不确定属性可以用json来表示,不管以后业务如何发展,这套模型都是可以很好兼容的。 - 易理解
event模型是事件驱动的,产出的数据是结构化的数据,比较好理解,易于下游加工使用。
二、数据建模
数据建模这个过程是整个数据驱动的至关重要的一步,完成了数据的采集,采集过来的数据都是一些原始数据,很难被上层应用直接使用起来的,所以需要对数据进行建模,目前国内互联网使用kimball建模方式比较常见(以阿里的onedata体系为主),当然也有其他方式。关于建模这话题(包含维度表和事实表的设计),笔者有其他文章介绍。
三、数据分析方法
基于多维事件模型,会形成一些常见的数据分析方法。在用户行为领域,对这些数据分析方法的科学应用进行理论推导,能够相对完整地揭示用户行为的内在规律。基于此帮助企业实现多维交叉分析,让企业建立快速反应、适应变化的敏捷商业智能决策。接下来我们将为大家逐一介绍常见的数据分析方法。值得强调的是,每一种数据分析方法都针对不同维度的数据研究。各分析模型存在相互依赖的关系,精益数据分析是数据分析方法交叉应用的结果。
3.1、行为事件分析模型
行为事件分析涉及事件、维度和指标三个概念。而事件、维度和指标是可以灵活自定义的。行为事件分析是上节内容讲到的Event实体的可视化展现。在实际分析当中可以将事件和维度作为分组和筛选的条件。行为事件分析法具有强大的筛选、分组和聚合能力,逻辑清晰且使用简单,已被广泛应用。行为事件分析法一般经过事件定义与选择、多维度下钻分析、解释与结论等环节。
例子:我想分析浙江省的男性用户,加购XX牌子衣服的次数,从指标就可以分析出事件:加购,维度:浙江省,男性,XX牌子的衣服,指标:次数。其实维度属性还可以更加丰富,支持更多维度的下钻分析。
3.2、漏斗分析模型
漏斗分析是一套流程分析,它能够科学反映用户的行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。这里需要注意的是,我们跟踪整个漏斗的转化过程,是以用户为单位将步骤串联起来,并不是只把每个步骤的发生次数做一个简单的计数,进入到后续步骤中的用户,一定是完成了所有前序步骤。
3.2.1、漏斗分析模型的特点与价值
对于业务流程相对规范、周期较长、环节较多的流程分析,漏斗分析能够直观地发现和说明问题所在。值得强调的是,漏斗分析模型并非只是简单的转化率呈现,科学的漏斗分析模型能够实现以下价值。
企业可以监控用户在各个层级的转化情况
多个层级,从电商领域来讲,最关注的事情无非就是GMV,交易额等,所以如何引导用户完成下单支付是重点。在用户整个交易链路上,一般包含如下:登录app-》进入商详页(可能存在多种路径)-》加购-》下单-》支付。多维度切分与呈现用户转化情况,成单瓶颈无处遁形
除了按照多个层级来建设交易漏斗模型,来观察不同层级间转化的关系。还需要结合多维度切分来查看,比如用户是具有多重属性的,利用用户的多种属性,可以实现更加精细化分析交易漏斗的转化率。比如,目前发现加购-》下单的转化率偏低,但是不知道是哪一部分人群偏低,精准定位问题,从而更加有利于去改善。不同属性的用户群体漏斗比较,从差异角度窥视优化思路
有时候运营查看交易漏斗模型会面临一个问题,那就是转化率多少是高,多少是低,没有一个标准,这时候需要将不同属性人群进行划分,通过比较来识别转化率的高低,从而让低转换率的人群向高转换率的人群去发展。
3.2.2、漏斗分析模型属性关联的重要性
何为属性关联,举个简单的例子,用户A浏览了商品A的商详页,但是却加购了商品B,那么这种是不能够算作商详页到加购的转换的。这里的属性关联指的就是商品id,在整个交易漏斗模型的不同层级都要保证是同一个商品id,不然就不能算作是正确的转换。
3.3、留存分析模型
如今互联网获取一个新客成本日趋变高,所以企业将新客发展成自己的粘性用户是至关重要的,即用户的留存率。但是单单看一个当天活跃用户数,这个指标过于粗,无法区分新用户还是老用户,也无法跨多个时间段进行比较。这当然也要根据不同的app单独分析,比如微信月活分析,如果一个用户一个月只登陆25次,那么就认为是低活跃用户了,或者说是易流失用户了,但是淘宝一个月能登陆几次,也算作活跃用户了,因为人们不可能每天都在买东西。
3.3.1、留存分析模型的特点
留存分析模型必须是跨多个时间段的,比如近3天,近7天,近15天,近30天等等,这个时间可以根据企业的需要自由制定,主要是参考产品迭代的周期来,通过不同时间段留存率的分析,可能得出此次产品迭代是正向迭代,还是逆向迭代。
留存分析模型必须是支持多维度分析,这个就不多解释了,任何分析模型都是可以结合多维度来实现精细化分析的。
3.3.2、留存分析模型特点与价值
科学的留存分析模型具有灵活条件配置的特点——根据具体需求筛选初始行为或后续行为的细分维度,针对用户属性筛选合适的分析对象。那么,留存分析有哪些价值呢?
1.留存率是判断产品价值最重要的标准,揭示了产品保留用户的能力。留存率反映的是一种转化率,即由初期不稳定的用户转化为活跃用户、稳定用户、忠诚用户的过程。随着统计数字的变化,运营人员可看到不同时期用户的变化情况,从而判断产品对客户的吸引力。
2.宏观把握用户生命周期长度及定位产品可改善之处。通过留存分析,我们可以查看新功能上线之后,对不同群体的留存是否带来不同效果?判断产品新功能或某活动是否提高了用户的留存率?结合版本更新、市场推广等诸多因素,去除使用频率低的功能,实现快速迭代验证,制定相应的策略。
3.4、分布分析模型
分布分析是用户在特定指标下的频次、总额等的归类展现。它可以展现出单用户对产品的依赖程度,分析客户在不同地区、不同时段所购买的不同类型的产品数量、购买频次等,帮助运营人员了解当前的客户状态,以及客户的运转情况。举个例子,比如XX属性客户,在XX时间段,平均购买的商品数量/平均商品单价等。
3.4.1、分布分析模型的价值
挖掘用户分布规律,优化产品策略。
比如我们中国还是工人阶级数量偏多,消费水平偏低,这些就可以通过合理的分布分析出来,所以低端消费市场的潜力更大,面向消费人群更广。运营并持续产品生命力,增加客户回访率。
通过分布分析,可以了解到公司产品哪一部分用户关注度低,哪一部分高,从而可以实现产品精准高效的去迭代更新,提升产品的生命力。快速识别核心用户群体,资源配置有的放矢。
通过分布分析,可以快速识别到对公司利益回报最大的用户群,这样公司就可以将资源区别投入,实现资源最大化利用。
3.5、点击分析模型
从用户的角度出发,当用户面对一个页面,感兴趣的才会点击,那么换个角度来分析,一个页面,有被点击的多的模块,也有被点击的少的模块,其实这就是可以进行优化的地方。点击分析模型,帮助运营人员或管理者评估网页设计的科学性,达到精细化网站运营的目的。结合之间介绍的spm埋点,点击分析模型可以精准到页面中一个区块位置的粒度。
3.5.1、点击分析模型的价值
- 精准评估用户与网站交互背后的深层关系。
- 与其他分析模型配合,以全面视角探索数据价值,能够深度感知用户体验,实现科学决策。
3.6、页面/区块流量引导交易模型
与交易漏斗模型有点类似,只不过漏斗模型关注的是不同层级之间的转化率,页面/区块流量引导交易模型关注的是不同页面和区块对产生交易的贡献价值。比如用户A浏览了页面A,在页面A加购了该商品,然后下单支付了,最后这个这笔交易就算在页面A上,关于交易的指标有很多,比如交易金额,订单的数量,购买商品的数量等。这种引导属于直接引导,当然还有间接引导。其实这个算法模型比之前的模型都要复杂,关于如何实现这里就不详述了,笔者以后有机会可以单独分享。
3.6.1、页面/区块流量引导交易模型的价值
精细化分析app中不同页面和区块对产生交易的贡献值,从而找到引导效能低的位置,促进产品去改进优化。
可视化程度较高,每个页面和区块都能关联上具体的数值,不会跟漏斗模型一样,只显示一个转化率。
四:指标体系构建
4.1、第一关键指标法
第一关键指标法的概念出自《精益数据分析》(Lean Analytics )一书,即在企业发展的每个阶段,都有一个当前阶段高于一切、需要集中全部精力注意的一个数据,这个数据就是“第一关键指标”。当然,随着业务的发展,这个指标会发生变化。第一关键指标可外延出更多指标,比如一个成熟的电商平台,第一关键指标一定是销售额,而销售额能够衍生访问量、转化率、客单价,新增会员数等多指标。企业运营人员或产品经理需要通过对衍生指标的优化,来促进第一关键指标的增长。因此,企业应该基于第一关键指标及衍生指标来衡量发展情况。让全企业员工明确当前阶段的核心目标,以此来制定与规划清晰任务。第一关键指标法和绩效管理中的KPI的理念比较接近,就是要寻找当前阶段整个公司最需要关注的指标,以此来集中火力向目标前进。
4.2、海盗指标法
第一关键指标法简单有效,但对于实际的产品运营来说,我们需要全方位地做出监测,这时海盗指标法就派上用场了。海盗指标法分别是Acquisition(获取)、Activation(激活)、Retention(留存)、Revenue(营收)和Referral(引荐),简称AARRR。每一环节
都有需要衡量的指标。相比第一关键指标法,海盗指标法的阶段划分更加清晰
4.2.1、获取
获取用户,通过各种各样的方式获取到新用户,想一想你每天收到的垃圾短信、垃圾邮件、骚扰电话,虽然这些都不是本意。但是这些都是获取新用户的方式,只是这些方式都不太礼貌而已。
相关的指标:点击率、uv、pv
4.2.2、激活
提升用户活跃度,当我们获取客户之后是需要用户去使用我们的产品,或者参与到产品中来,这里的激活是指用户一定要体验到产品的核心功能,比如如果是电商app的话,则需要下单,如果是视频网站的话,则需要观看视频等,并不是说完成注册就是激活了,没有体验到产品的核心功能的用户,还是很容易流失的。
相关的指标:注册人数、注册量、订阅量、关注人数等
4.2.3、留存
当你在一个app上完成激活以后,时不时的会受到一些消息的推送的,比如XX商品降价了,XX出新款了,这些都是平台为了防止用户流失做的事情。
相关的指标:日活、月活、距离上次登录的时间、流失率、复购率等等
4.2.4、营收
聚集这么多用户在平台上当然是为了要盈利的,只是时间先后。如滴滴、共享单车可以前期直接跨过盈利,疯狂砸钱增加用户量,在形成市场影响力之后再考虑营收的问题。
相关指标:客户终生价值、客单价、购买量、广告点击营收等
4.2.5、引荐
当我们有了第一批用户之后,通过用户进行分享、自传播的方式拓展产品的覆盖人群,进一步增加用户量以提升市场占有率。通过推荐的方式回到第一步形成新用户的引入,周而复始,生生不息。
相关指标:点赞、转发、邀请、分享等
下图是根据海盗指标法划分的每个过程,以及各个过程需要实施的方案:
参考链接:
1:https://www.growthhk.cn/product/9287.html?mip
2:https://qingzhuti.com/55/
3:《数据驱动:从方法到实践》