问题一:什么是用户行为数据,怎么采集用户行为数据?
用户无论在哪个客户端(iOS端、安卓端、小程序端、H5端)操作,用户产生的行为数据都分为两种:一种是浏览,一种是点击。这些隐性的行为数据,一般不会存储在业务线的数据库中,而是通过异步传输的方式传输并存储到数据采集服务器中。
为什么要花那么多的资源采集这些行为数据呢?因为这些数据对后期数据的挖掘应用是十分有用的。
举个例子,对于电商产品,如果没有行为数据的采集,我们是无法判断用户对某个商品的感兴趣程度,但是如果有了这些数据,我们就可以定义用户对商品的感兴趣程度,比如用户对某商品的1次点击,代表用户对该商品的兴趣度增加10分,而用户的3次点击代表他对这件商品非常有兴趣。
用户行为数据的采集有如下三种方式:
1、与第三方移动应用统计公司合作完成数据采集。
2、采用前后端埋点结合的方式完成数据采集。
3、采用可视化埋点与后端埋点结合的方式完成数据采集。
问题二:你是怎么管理公司的数据指标?
如何让指标定义清晰且没有歧义呢?解决这个问题的核心方法就是拆解——将一个数据指标拆解到不能再继续拆解为止,这样就能够最大化地保证大家的理解无误。假设我们要计算电商产品最近3个月的iOS客户端的下单金额。
首先这个指标属于电商产品业务板块,那么它的业务板块就可以定义为某电商业务线,下单金额在电商产品中属于交易模块这个指标的数据域就属于交易数据域。
下单金额是从订单中获得的,要基于订单的金额和下单的时间去统计下单金额,那么这个指标的维度就是订单。
原子指标是不可继续拆解的下单金额,由于加上了时间周期和修饰词(iOS客户端),那么这个指标就成为一个派生指标。
这样我们就把一个比较复杂的指标进行拆解和归类:
问题三:怎么识别虚荣指标?
比如常见的PV、UV、月活(即月活跃用户数)、总用户数、总商品数等指标都是虚荣指标,因为这些指标无法直接促进交易额增长,只起到对产品线监控的作用。
虚荣指标只能作为我们定的目标,并不能帮助我们增长,如果用户不下单,再多的UV、月活也没什么用。
问题四:数据库和数据仓库有什么区别?
数据库与数据仓库的用途是完全不同的。数据库和数据仓库虽然都是用来存储数据的,但数据库是用来存储业务数据的,而数据仓库是用来存储汇总后的报表数据的,以支撑公司的决策分析。
问题五:简单介绍一下数据仓库的分层机制?
业界比较通用的分层方式是将数据模型分为5层:
①ODS(Operate Data Store,操作数据层)
②DIM(Dictionary Data Layer,维度数据层)
③DWD(Data WarehouseDetail,明细数据层)
④DWS(Data Warehouse Service,汇总数据层)
⑤ADS(Application Data Store,数据应用层)。
题六:有无负责过标签平台?标签平台是怎么做的?
1、数据宽表功能。用来存储用户、商品等所有的指标。
2、标签体系功能。将各条产品线共用的标签和非共用的标签,按照统一的层级结构组织起来。
3、标签工厂功能。可以基于规则选择指标生成标签。
4、人群圈选功能。通过组合不同标签组合形成人群。该功能一般与推送、营销系统对接。
问题七:怎么评估一个拉新渠道值不值得做?
某个渠道是否值得投入是可以计算出来的。当我们在进行大范围推广前要进行小规模的灰度测试来证明渠道的可持续性。
比如地推人员拉来了一批新用户,就要看下接下来这批用户在平台上实际产生了多少交易额,如果周期内带来的交易额与周期内地推成本之比是大于1的,那么这个渠道就是可持续的。
如果两者之比小于1,一方面可以判断地推人员带来的用户质量是不合格的,另外一方面可以采取一些手段,看看能否促进地推人员的拉新质量。
如果采取了很多的手段,收入都无法覆盖成本,那就应该果断放弃这条拉新渠道,寻找其他更合适的拉新渠道。
问题八:你是怎么理解留存率的?
留存率分为访问留存率和购买留存率。访问留存率是指新注册用户次日、7日、14日、30日后再次访问我们的产品的数量百分比;购买留存率是指首次购买用户在接下来的7日、14日、30日再次购买我们的商品的数量百分比。
问题九:怎么理解访问时长、和跳出率?
访问时长:访问页面时长,即用户离开页面时间与用户进入页面时间的差值。
跳出率:访问页面一定时间内跳出的用户数与页面UV的比值。