一. 定义

user profile vs user persona

曾经有一次，与运营的同学讨论用户画像，发现他们对用户画像的理解，和我有很大的差别，回来之后查了一下，发现用户画像的两个定义。

user profile
基于真实存在的数据，包括用户填写的资料，用户在系统里的行为，经过统计/算法计算形成的众多的标签。把用户数据化，反应的是“真实的历史”。
user persona
基于访谈/用户调查问卷，答案汇总得到的一个抽象的用户形象，以便让我们得知我们的产品是为什么人服务。收集意见，包括使用感受/将来的新功能需求等。

区别与联系

user profile 的标签是来自用户的真实行为，是一种客观描述。而user persona 是用户主观填写的，会有一些偏差。如果产品/运营人员都根据user persona进行产品设计和活动，不一定是最好的指导。（但是还是能真实反应用户需求的，有指导意义。有一些产品经理非常自我的调整产品，就因为乔布斯当年说的各种经典语录比如用户是傻子根本不知道自己想要什么。乔布斯：我没说过）
user persona 也会用到 user profile 的真实数据来进行总结，包括在做调研的时候，需要依据userprofile 的数据进行用户分配，比如一个产品男女比例是8:2 ，那么在做用户访谈/调查问卷的时候，也需要按这个比例来进行。
数据分析中说的用户画像往往指的是 user profile，本次说的也是这个。

二. 应用

优化产品，服务用户，发布报告

微观

让用户和公司产品“直接对话”。根据用户行为日志，通过数据分析，得知用户的客观感受，知道用户想要什么，做好产品优化/推荐/搜索/风控/运营策略/广告/用户增长，从而产品优化/提升用户体验，达到双赢。
对于产品，很多改动，甚至登陆按钮更换位置，都需要根据用户真实的使用反馈来得知是优化，还是负优化。
对于用户，通过推荐让用户获得喜欢的内容是用户停留在产品的最好最直接的方法，而自然人识别+用户画像，则是推荐的基础。与算法相辅相成，才能“投其所好”，达到更好的推荐效果。
(题外话，自然人识别，曾经是一个非常困扰人的问题，现在移动互联网时代，手机号是一个非常好的自然人识别标识，辅以其他手段（比如cookies反向注入等），难度降低很多。)
另外，对不同层级的用户(这个层级的定义是根据用户对产品的使用情况，把用户分为普通/优质/核心等层次。)给予不同的服务。比如游戏行业对大R有专属客服。其它行业不像游戏这样有明确的区分标准——充值，所以就需要用户画像，从多个方向寻找核心用户。

宏观

产品对用户的影响，可能会进一步，影响到现实生活。比如滴滴打车对拥堵的改善/碳排放的减少有什么贡献(2015年中国智能出行大数据报告)，短视频对区域旅游带来的影响，行业报告(2016微博短视频行业报告)。等等。这些就可以通过年度报告等方式输出出去。

三. 构建

现在说一下重点：用户画像的构建。用户画像的核心是：业务。数据所做的都是为了产品做准备，脱离产品的数据没有太多意义。（比如某cdn公司，每天的压缩数据有120T，但是没办法进行有效/有意义的分析与挖掘）

1.数据来源

静态数据
用户主动填写/认证过的数据，比如手机号/邮箱等，多数是缓慢变化的数据。
动态数据
用户与产品的一切交互行为，包括查看点击喜欢讨厌下单付款评价等等。
人的爱好是可能会变的，所以动态数据也应该是变化的。比如一个用户喜欢动漫，过两年可能还喜欢；喜欢苹果，过两年可能就喜欢香蕉了。
同时也要注意热点，时间特性更显著，来的快去的快，比如六小龄童的两开花。

2.标签与可用性

标签内容

人口属性——用户是谁
性别年龄职业人生阶段等，可从静态数据出，比如身份证号就可以得知很多信息。
兴趣偏好——喜欢干什么
玩游戏/看动漫/看小说/看电影/美女
社交习惯——众乐/独乐
发帖点赞留言回复分享
消费意愿
金额频率

常见的标签

通用的标签
（上网找几个图）
特殊标签
特殊活动，热点等。

可用性

做出的用户画像能否被业务方接受并使用，可以从下面几个方面来衡量。

多样性
用户画像体系中，包含的标签越多，对业务的帮助越大。
产品形态不同，获取的数据不同，得到的标签内容/难度也不相同。
覆盖率
覆盖率指的是某个维度覆盖的用户比例，比如年龄标签，可以覆盖70%的用户，性别标签可以覆盖20%的用户，那年龄标签可用性更高。
准确率
准确率指的是某个维度的准确程度。很简单，70%的准确率比50%的要好
粒度
随着用户行为增多，粒度就越细。但是不是越细越好，要看具体情况而定。
比如下面三份年龄维度的粒度举例
- 20岁以上/20岁以下
- 20岁以下/20～30岁/30～40岁
- 20/21/22/23
  这三个粒度中第二种是更常用的。

3.步骤

熟悉产品

文章开始，就提到了用户画像必须与产品密切相关，所以在做用户画像的时候，第一步要做的是：熟悉产品，知道自己的产品是干嘛的，目标是什么，用户能得到什么。

设计

依照从简单到困难，考虑通过数据能获得什么标签。
比如feed对用户喜好比较容易获得，能通过用户的访问直接体现，打车软件对用户位置和身份比较容易获得，但是对用户喜好/性别，比较困难。

动手

基于统计的标签获取（定量）
基于数据统计，得出用户的行为，得到一系列标签，比如用户对各主题内容的查看，对各种产品的浏览/下单行为量，对打车的时间/地点/次数统计。
基于算法的标签获取（定量+定性）
使用聚类归类算法对用户进行处理，比如性别标签。
对比来说，特征的选取比算法本身要困难的多的多，往往特征选一天，算法跑一个小时，然后循环。算法这方面我不是很熟，在这里就不说了。
需要注意的是时间特性，要做适当的加权以及减权。

4.离线数据与实时数据

离线数据
离线计算的计算能力强，可以计算维度/步骤比较多，更丰富的数据，缺点就是当天的行为不会被使用，画像有延迟性。对当天的行为无法做到快速反馈。
实时数据
使用实时数据，可以让用户的使用立刻反馈到产品中，但是对数据通路/计算的要求比较高。

离线算历史，实时算当日，一般都是共同使用。

5.广义的“用户”

用户画像不单单指使用的人，对内容也适用，比如商品/文章/广告等。有了自己的标签，推荐更精准。

四. 总结

用户画像是为产品服务的，必须要有明确目标再做。
数据要多维度对比查看，单独看某一个标签意义不大。
不要迷信数据和算法，一定要和常识做对比，反之亦然。得到的数据可能和常识完全一样，没什么“特色”“指导意义”，但是没关系，数据本身就是反馈真实使用情况的。
要有大量数据。虽说大数据 != 大量数据，但是准确全面的用户画像还是要有数据喂。
无论黑猫白猫，抓到耗子就是好猫。不要迷信算法，统计也能出好结果。

来自 http://siegehammer.xyz/