用户画像

曾有报道称,美团饿了么在通过手机麦克风窃听我们的日常,从而进行精准推荐。而对于淘宝、京东这类电商网站来说,不需要通过获取麦克风权限,通过分析用户个人位置信息、购买记录等大数据,构建用户画像,进行更好地商品推荐。

  • 用户画像含义
    用户画像即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对用户或者产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的信息全貌,可看作是企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件。下图展示了两大电商京东和淘宝较为典型的用户画像。



  • 用户画像应用
    用户画像在推荐系统、风控中都有非常广泛的应用,它具体表现在:
    (1) 精准营销:根据用户不同的年龄、性别、兴趣爱好等,展示不同的内容给用户;
    (2) 内容push
    (3) 活动推广:广告投放、活动推荐、用户指引等。

  • 怎么实现用户画像
    用户画像的一般流程为(1)收集用户的个人信息存入数据仓库;(2)分析数据仓库的数据,并为用户建立用户标签;(3)通过用户标签建立模型。(4)通过实际适用场景进行AB实验,并迭代;(5)在产品中落地,经过学习训练 不断强化。


信息收集阶段需要对活动、网站页面进行埋点,然后需要数仓同学将日志数据解析成结构化数据,写入表中,ETL的工作可通过airflow实现任务调度、管理和监控。
建立用户标签将通过结合我在工作中的实际情况介绍如何实现。下图展示了头条的一个用户标签案例。


一般用户画像分为基本用户画像(用户基本信息:年龄、性别、职业等),用户行为画像(用户与商品的交互:点击、加购、加心愿单、购买等),用户群画像(通过聚类,将同类型用户划分为一类)

  • 数据分析
    在进行数据分析时需要筛选出在建立某个标签的相关表,以及表中有效字段,并在时间维度上进行采样。之后可以对统计数据进行分析,例如均值、中位数、方差等层面。
    在联立表时,数据量会非常大,但是不是所有数据都有价值,可以先考虑对某个表进行筛选。例如过滤用户和商品交互非常少的数据。
  • 标签权重:
    建立用户标签时,标签权重如何定义也是非常重要的,一般来说,标签权重
    可以通过如下公式进行计算:
    标签权重=时间衰减因子 * 行为权重 * 用户行为次数 *(根据不同需求确立)
    (1)时间衰减因子:指的是行为时间(越久远的时间对用户当前的影响越小,如5年前你会搜索一本高考的书,而现在你会搜索一本考研的书)。时间衰减是指用户的行为会随着时间的过去,历史行为和当前的相关性不断减弱,在建立与时间衰减相关的函数时,我们可套用牛顿冷却定律数学模型。牛顿冷却定律描述的场景是:一个较热的物体在一个温度比这个物体低的环境下,这个较热的物体的温度是要降低的,周围的物体温度要上升,最后物体的温度和周围的温度达到平衡,在这个平衡的过程中,较热物体的温度F(t)是随着时间t的增长而呈现指数型衰减,其温度衰减公式为:
    F(t)=初始温度×exp(-冷却系数×间隔的时间)
    时间衰减的函数是根据发生时间的先后为用户行为数据分配权重。如我们在分析近一个月用户对商品的行为时,时间衰减因子可计算为:发生行为时间和现在时间的天数差除以30,以e为底的负指数,即,
    exp(-datediff(day,date(log_date),current_date-1)/30.0)
    (2)行为权重:是用户不同行为类型的重要性不同,所以对用户的不同行为赋予不同的权重。如给用户购买、加购、加心愿单和点击分别给予1、0.5、0.5、0.1的权重。
    (3)用户行为次数:是统计用户某个行为发生的次数,如用户对某个商品点击了10次,则会对他点击行为的权重累加次数。
    (4)不同需求的权重:如某个页面的权重,TF-IDF标签权重——每个标签的对用户的重要性及该标签在全体标签中重要性的乘积得出每个标签的客观权重值等。
  • 排序
    对每个用户偏好每个标签求总权重值,对权重值倒排并取Top N。
  • 建立模型
    建立好特征工程后,通过机器学习算法,建立LR、XGBoost等模型对用户行为进行预测,生成标签。
    用户画像验证
    这部分内容现阶段还没接触到,在之后的工作会进行补充。
    (1) 实验中验证:通过auc等指标、交叉验证等方法进行验证;
    (2) 线上验证:通过A/B Test进行验证。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容