用户画像与标签

本质

用户画像是对现实用户的数据建模 

标签是一个符号并且与业务紧密相连才有意义

标签的评判标准定义. 例如,假设我们有一个类目就是洗车,那很好办,如果用户下过洗车的单子,那么该用户就打上这个标签


谨记

构建用户画像,确定标签要与业务部门和产品部门共同商量确定,因为用户画像与业务紧密相连,标签体系是搜集所有业务方面的需求。

验证

验证需要两方面考究。第一,标签是否准确。第二,标签是否齐全。但是无法保证这两者100%符合,尤其是后者,因为业务不断变化,导致最多在一段时间内标签的齐全,抑或多数情况下标签是不齐全的。

所以我们通常判断的是准确性。准确性的判断有两类。第一类,以实时为依据,比如用户的性别,通过数据是可查究的。第二类,无事实为依据,比如用户的忠诚度,只有通过线上数据的A/B Test来对比验证。

①用户数据采集

多种数据源,不同终端(Web、App、H5、桌面软件)用户行为,后端系统日志(Web server Log),业务数据( DB ) 


②数据接入与存储

实时导入数据,数据格式从此统一、完备。先进的事件—用户数据模型,为分析用户行为提供坚实基础

③可视化查询与分析

多维事件分析、漏斗分析、留存分析、用户分群、行为轨迹分析和回访分析,不同分析模型帮助揭示数据背后的含义,深度解答各种问题。

支持将任何分析查询添加到数据概览。配置数据概览。


技术架构

海量日志(一般为流式数据,如,搜索引擎的pv,查询等)数据提取 Hadoop的Chukwa,Cloudera的Flume,FaceBook的Scribe

分布式数据存储技术 HBase 、HDFS

Sqoop  用于 Hadoop、Hive 与传统数据库 MySQL、Oracle之间数据转换

Hive、SparkSQL、MapReduce处理数据数据分析、挖掘

Storm、Spark等实时技术 流式数据处理

Karmasphere 数据查询和呈现

R取样本,假设检验,做回归

机器算法  聚类 KMeans  DBscan    分类和回归 贝叶斯算法    预测 Boosting,Bagging


技术架构

实施方法论


实施方法论





最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容