有时候不愿回学校去，因为，去了再走就是永远。

或许我喜欢你吧。

这次回学校，多了一个朋友。也多了一个特别的人。

用户画像的流程：

1.你那个文档我看了下.. 首先要写一下做用户画像要解决的问题...

2.然后将社会画像.. 行为画像分开来写... 模型那块你可以用数学表达式来表示.

3. 最重要的..画像的基础是基于统计分析的....你将统计分析的需求列出来....

4.最后用到的聚类那块,,你将算法的原理列出来..可行性分析,.,,然后训练集和测试集列一下...

5.最后写一下你的方案的存在的问题..后期怎么解决..目前市面上别人的方案是啥...后期的计划什么的

6.然后一步一步的完善你的方案.

东哥我理解的社会画像就是用户的基本信息画像了行为画像就是用户的点赞关注等的画像不知道我有没有理解对呢

恩..通常都是这么叫的...

好 OK 明白

你那个慢慢来...我想的是,你趁这个空档期..把每个部分都研究透彻点..... 查一下网上别人怎么弄..可以把相关的链接都记录下来.....

但是用户画像的一个基本要求画像必须是可以通用的。就需要有一系列的规范来保证每个字段必须是可解释的，数据的输出是规范一致的。一切的一切都应该是有文档来记录以保证画像的通用性。也即用户画像中的所有的字段适合所有的用户，只是输入和输出的数据不一样而已。用户画像也可以当作一个模型，输入数据，输出相应的数据。

用户画像的体系建设

单个的用户画像很好做，但用户画像真正想发挥用途，必须得建立起自己的体系来。这样才能对一个用户进行全方面的描述。打包卖给别人的话，也更加值钱。初步来看用户画像的体系建设应该包括几个方面

1.标签系统的顶层设计，具体就是我们这个标签系统系统需要为哪些业务方服务，需要涵盖哪些类别，需要做哪些标签

2.标签系统的维度系统建设，我们的画像对外输出，如果只是输出中文的话，不大好用，有时候也不大好处理，就需要我们将标签的输出的值数值化，维度化。整个标签系统的值都可以通过一个统一的数值系统或者向量系统来进行描述。

3.标签开发规范，这个是保证标签代码的可维护性，易读性。

4.标签系统的可扩展性，由于很多业务方都需要根据自己的需求来定制化标签，就要求我们的标签系统应该是可扩展的，外部业务方自己定制的标签如果符合我们标签的维度系统以及开发规范，就应该是可以扩展进我们本身的标签系统的，供给全公司使用。

5.标签对外平台的开发，所有的标签最好只能有一个统一的输出口径对外输出，这样就可以切实保证只有符合我们标签开发规范的标签接入其中，同时也能做好标签系统的权限管理。

用户画像当前的困境

目前大部分用户画像都是基于统计的方法来做的，这种方法的优点是基础准确率比较高，但是整体的覆盖率不会很高。比如我要在一个购物网站做用户感兴趣的商品的画像。如果我使用基于统计的方法利用用户在购物网站 pc，m，app端的点击，浏览，下单，购买等一系列用户行为来对用户打标签，只能够得到用户关于她／他已经点击，浏览，下单，购买的商品的画像。但是其他商品，我虽然没有点击，不代表我对这些商品没有兴趣，可是基于统计的方法无法推广到这些用户没用点击，浏览，下单，购买的商品。

基于统计的方法无法进行更深层次的推广，也就是缺乏我们常说的泛化能力，只会死读书，不会举一反三。我们更多的会通过使用机器学习或者其他算法来尝试解决这个问题。遗憾的是对于业界来说，这种标签占整个用户画像体系的比例也不会很高。因为这种标签做的费时费力，而且效果不一定好。有一个很关键的原因，我们举一个例子来尝试说明一下。比如某个汽车网站想预测用户有车无车，很多时候该汽车网站通过和4s店合作等等途径能够获取到只有哪些用户确切有车。我们在预测的时候，可以把这些有车的用户当作正样本来处理。问题在于我们找不到确切无车的用户，相当于找不到负样本。

一般的做法是我们把流量日志当中那些不是确切有车的的用户都当作无车用户来看，也就是当做负样本来看。但是这个只能说明这些用户只是在该公司的数据库里是没有买车的，他现实生活中可能是有车的，但是该公司并不清楚这一点。这样做的后果就是负样本里面参入了正样本，更可怕的是参入的比例有时候我们也不大好估计。这种情况就会导致模型在训练的时候准确率下降。

这样看来很多基于机器学习的算法其实都有样本标注的问题，对于这类标注的问题，一方面我们可以通过其他不同的数据来源，相互验证来保证标注的数据尽量准确。一方面可以考虑一下无监督的学习算法比如聚类算法来解决这个问题。但是目前来看，还不大清楚有没有其他比较实用的方式来解决这类问题。

一、如何建立用户画像

说白了主要是对两类客户的认知和判断：

现存客户 (Existing Customer) - 我的现存客户是怎么样，喜欢什么，什么消费习惯，哪些客户最值钱等等

潜在客户 (Prospect Customer) - 潜在用户又分：认知客户和竞品客户，我的潜在客户在哪，他们喜欢什么，通过什么渠道获取，获客成本是多少等等

分析的维度，可以按照人口属性和产品行为属性进行综合分析，

人口属性：地域、年龄、性别、文化、职业、收入、生活习惯、消费习惯等；

产品行为：产品类别、活跃频率、产品喜好、产品驱动、使用习惯、产品消费等；

这个问题从本质上看是两类问题：

1、对用户画像，打上标签。这是个聚类问题，将同一类用户通过算法聚合成一类。

2、对不同用户进行精准营销。这个问题是个预测问题，对用户行为建模，预测某一类用户会对什么更感兴趣。

一、先说第一类问题，聚类。这个成熟的算法很多，具体选择哪种就要看你的数据有什么了。既然叫做数据分析，那边必然是以你的数据为准基础的，看你的数据包含什么，如果能把用户映射到某一个空间里面，表示成向量（也就是高维空间的坐标），就可以kmeans，DBscan等等方法来进行聚类，如果只能给出两两用户的相似度，那么就是用基于层次聚类的算法。再重申一遍，关键是数据。

二、就是对用户行为建模，同样因为不了解数据，就只能简单讲一讲普通的流程。精准营销这个问题可以规约为预测用户对什么商品感兴趣。这个建模流程简单来说应该包含下面几个过程：

a、选取特征，从历史数据中选择、构造出一些特征，假设这些特征和要预测的值之间的一个关系（这个关系也就是你的模型）。这一步是定性的过程。

b、确定模型中的未知系数，也就是定量的过程。

c、计算模型的置信度，根据测试集数据（从历史数据中选择一部分出来，分割方法很多，自行百度交叉验证）来判断预测准确性，如果符合要求，就可以用这个模型来预测用户喜欢什么，进行精准营销，如果准确性不满足要求，那么就再重复上述过程，构造更复杂的特征，或者收集更多数据，尝试其他模型。

（1）定性与定量相结合的研究方法

定性的方法，表现为对产品、行为、用户个体的性质和特征作出概括，形成对应的产品标签、行为标签、用户标签。是描述性的

定量的方法，则是在定性的基础上，给每一个标签打上特定的权重，最后通过数学公式计算得出总的标签权重，从而形成完整的用户模型。是可量化的。

关于建立用户画像、标签化的问题，不仅需要从已有的用户数据进行定量分析，还需要以问卷、访谈等形式进行定性研究。定量和定性分析相结合，才有可能得出一个更为精准的用户画像。但更重要的是以用户为中心，而不是以数据为中心。

用户的行为，我们可以用4w表示：WHO（谁）；WHEN（什么时候）；WHERE（在哪里）；WHAT（做了什么），具体分析如下：

WHO（谁）：定义用户，明确我们的研究对象。主要是用来用户分类，划分用户群体。网络上的用户识别，包括但不仅限于用户注册的ID、昵称、手机号、邮箱、身份证、微信微博号等等。

WHEN（时间）：这里的时间包含了时间跨度和时间长度两个方面。“时间跨度”是以天为单位计算的时长，指某行为发生到现在间隔了多长时间；“时间长度”则为了标识用户在某一页面的停留时间长短。越早发生的行为标签权重越小，越近期权重越大，这就是所谓的“时间衰减因子”。

WHERE（在哪里）：就是指用户发生行为的接触点，里面包含有内容+网址。内容是指用户作用于的对象标签，比如小米手机；网址则指出用户行为发生的具体地点，比如小米官方网站。权重是加在网址标签上的，比如买小米手机，在小米官网买权重计为1,，在京东买计为0.8，在淘宝买计为0.7。

WHAT（做了什么）：就是指的用户发生了怎样的行为，根据行为的深入程度添加权重。比如，用户购买了权重计为1，用户收藏了计为0.85，用户仅仅是浏览了计为0.7。

当上面的单个标签权重确定下来后，就可以利用标签权重公式计算总的用户标签权重：

标签权重=时间衰减因子×行为权重×网址权重

举个直观的例子，通过用户的行为数据，“B用户今天在苹果官网购买了iPhone6”反映出的用户标签可能是“果粉1”；而“A用户三天前在天猫收藏了iPhone6”反映出的标签可能只是“果粉0.448”，这些可以给不同用户打上不同的标签和权重。

有了标签和权重后，这将在后续的营销决策中发挥指导作用，比如广告重点推送给这些用户，以及协同推荐。

二、用户画像的利用

关于得到用户画像后可以区分不同用户级别从而进行相应的精准营销的问题，推荐引擎利用特殊的信息过滤技术，将不同的内容推荐给可能感兴趣的用户。较常见的推荐引擎通用算法有

（1）基于关联规则的推荐算法（如买了泳衣的用户可能会买泳镜）；

（2）基于内容的推荐算法（需要用户的历史数据，例如我在淘宝上买了个猫砂盆，转眼第二天又给我推荐了一个猫砂盆）；

（3）协同过滤推荐算法。

协同过滤推荐的核心是找到和目标用户兴趣相似的用户群，技术上叫“最近邻居”（Nearest Neighbor）。

通过最近邻居对商品的加权评价来预测出目标用户对该商品的喜好，从而进行精准推荐。套到题主所说的用户画像，那么可以理解为：系统匹配与目标用户的画像所相似的用户群，然后推荐这类用户群感兴趣的商品给目标用户。

简单来说，物以类聚，人以群分。

最后补充一点关于协同过滤推荐的最主要的优缺点。

优点：可以过滤难以进行内容分析的商品，例如音乐。且推荐具有新颖性。

缺点：用户做出评价较少的情况下，数据不充足，产生稀疏性问题。

2019-04-22

2019-04-22

用户画像的流程：

用户画像的体系建设

用户画像当前的困境

一、如何建立用户画像

相关阅读更多精彩内容

友情链接更多精彩内容