数据指标体系

基于用户维度的标签体系&用户使用设备维度建立的标签体系
ID-mapping

用户属性维度

个人信息：年龄、性别、地址、历史信息等--基本情况
- 标签互斥情况-性别
- 用户性别：自然性别和购物性别
用户行为：通过用户行为可以挖掘用户偏好和特征
- 用户订单相关行为、下单/访问行为、用户近30天行为类指标、用户高频时间段、用户购买行为、点击偏好、营销敏感度
用户消费维度：可从浏览、加购、下单、收藏、搜索商品入手，品类越细越精确，给用户推荐或营销商品的准确性越高
- 将商品品类抽象成标签后，可以通过品类+行为的组合方式找到目标潜在用户人群。
风险控制维度：薅羊毛、恶意刷单、借贷欺诈，公司需建立风险控制维度相关的指标体系，有效监控平台的不良用户。
社交属性维度：

标签管理方式

标签主题	用户维度	标签类型	一级归类
人口属性/行为属性等	cookieid/userid	统计类/规则类/算法类	自然性别/购物性别/年龄/地域

标签主题：用于刻画属于哪种类型的标签，如人口属性、行为属性、用户消费、风险控制等
用户维度：用于刻画该标签是打在用户唯一标识上还是打在用户使用的设备上
标签类型：可以分为统计类、规则类和算法类
一级维度：在每个标签主题大类下面，进一步细分维度来刻画客户。

标签存储

标签数据开发

标签数据开发是用户画像体系搭建中最重要的环节，主要包括离线标签开发、实时标签开发、用户特征库开发、人群计算、打通数据服务层

用户特征库开发

ER图

标签权重

TF-IDF：泳衣评估一个字或者词相对于一个文件集或者一个语料库中的其他词语的重要程度。字词的重要性随着他在文件集中出现的次数的增加成比例增加，同时伴随着它在语料库中出现的频率成反比下降。
- 对于每个用户来说，其身上同一个标签出现的次数越多，该标签对于该用户来说越重要，该标签在全部用户的所有标签产生的标签集中出现的次数越多，该标签的重要性越低。--挂号
- 标签(Tag,T)、用户(User ,P)：其中 $w(P,T)$ 表示一个标签T被用于标记某个用户P的次数， $TF(P,T)$ 表示这个标记次数在所有标记用户P的标签中所占的比例，TF计算公式 $TF(P,T)=\frac{w(P,T)}{\sum_{T_i=tags}w(P,T_i)}$
  - 在一定程度上这个比例反应了用户P被认为与标签T有关联的度量。这个度量越大说明在更多情况下用户P与标签T之间的关系越密切
- IDF(P,T)表示标签T的稀缺程度，即这个标签在全体用户的所有标签中出现的概率。对一个标签T来说，如果它本身出现的概率就比较小，却被用来标记用户P的话，这会使得用户P和标签T之间的关系更加紧密。
  - $IDF(P,T)=\log\frac{\sum_{P_j=users}\sum_{T_i=tags}w(P_j,T_i)}{\sum_{P_j=tags}w(P_j,T)}$
- 用户P和标签T之间的关系系数为
  - rel(P,T)=TF(P,T)×IDF(P,T)

$rel(P,T)$

$=TF(P,T)*IDF(P,T)$

$=\frac{w(P,T)}{\sum_{T_i=tags}w(P,T_i)}×\log\frac{\sum_{P_j=users}\sum_{T_i=tags}w(P_j,T_i)}{\sum_{P_j=tags}w(P_j,T)}$

时间衰减系数
当用户数据达到足够的密集程度以后，用户身上的标签属性会出现较高的稳定性，这种稳定性与用户长期行为形成的个人真是特征相匹配。但是也存在灵活变化的适应性较弱的问题。

商品基本属性标签不会变
人是善变的

引入时间衰减参数，根据发生时间的先后为用户行为数据分配权重。时间衰减是指随着时间的推移，用户的历史行为和当前行为的相关性不断减弱，在建立与时间衰减相关的函数时，我们可以套用牛顿冷却定律数学模型。

牛顿冷却定律：一个较热的物体在一个温度比其低的的环境下这个较热的物体的温度是要降低的，而周围的物体的温度是要上升的，最后物体的温度和周围的温度达到平衡，在这个平衡的过程中，较热物体的温度随着时间的增长而呈现指数型衰减：
- $F(t)=初始温度×exp(-\alpha ×时间间隔)$
- 其中， $\alpha$ 为衰减常数，可通过回归计算。
在用户画像中，用户的某些行为会随着时间衰减，而某些行为不会随时间衰减。-买小孩玩具，随着孩子年龄增大就不一样。
一般来说，用户操作复杂度越高，其行为随时间的衰减性越小，我们可以视该行为不随时间衰减-性别
标签权重配置
- 用户标签权重=行为类型权重 ×时间衰减×用户行为次数×TF-IDT计算权重系数
  - 行为类型权重：用户浏览、搜索、收藏、下单、购买等不同行为对用户而言有不同的重要性。一般而言，操作复杂难度越高的行为权重越大。一般是运营、产品或者数据分析人员主观给出
  - 时间衰减：受时间影像不断减弱，行为时间越远该行为对用户当前行为来说意义越小
  - 行为次数：用户标签权重按天统计，用户某天与改标签产生的行为次数越多，该标签对用户的影像越大
  - TF-IDF：

标签相似度

标签之间的相关关系进行聚类也是画像开发中经常遇到的一类问题，结合业务背景对标签有效的聚类是非常重要的。

--余弦相似度

组合标签计算

组合标签建立用户群体

读取不同组合标签的计算规则
将人群规则拼接成接口传入参数的查询命令，通过接口方式进行查询
接口查询计算，返回符合条件的用户ID

数据服务层开发

开发完画像后，还需要打通标签数据数据和各业务系统之间的通路，通过产品化的方式将标签数据应用到业务中去。这里需要打通的服务层包括离线的服务层和在线服务层。

离线服务层：将ETL后的用户群数据推送到对应业务系统
在线服务层：提供接口服务，可支持个性化推荐、营销推送、在线特征库等

用户画像应用

经营分析

商品分析：借助用户画像，可以对商品的销量进行分析，比如可以快速定位到爆款品类，进一步分析购买爆品的用户在各个维度上的特征--透视表
用户分析：用户画像产品可以了解平台用户的性别、年龄、职业等
渠道分析：
漏斗分析：用于分析产品流程或者关键节点的转化效果，
客服话术：客服人员根据来电用户的画像针对性的提出解决办法，针对高价值客户提供VIP服务
人群特征分析

精准营销

短信、邮件营销
效果分析
个性推荐-千人千面

数据指标体系

数据指标体系

数据指标体系

用户属性维度

标签管理方式

标签存储

标签数据开发

用户特征库开发

标签权重

标签相似度

组合标签计算

数据服务层开发

用户画像应用

经营分析

精准营销

相关阅读更多精彩内容

友情链接更多精彩内容