如何用统计方法分析用户画像?(一)

      新时代的产品经理“上的了厅堂,下的了厨房,懂的了代码,分析的了数据” ,哭笑脸,调侃一下。在实际的产品设计开发中,产品经理的需求的分析离不开用户使用场景及使用行为数据分析等,但是自己目标用户群体到底是什么样的?是不是我们想象的那个人群呢?用户可以分为哪几类?不同的用户群体到底有多大的占比?这几类用户中,哪些是可以发力的核心用户?这个产品设计方案到底能解决多大量的用户需求呢?

      在没有精确的大数据标签化的用户画像数据支撑下,是否可以使用简单的测量-统计方法,较敏捷地得到一个期望的“用户画像”呢?

前言

        提起用户画像大部分人的意识中就是用户的“性别、年龄、婚姻状况。。”等等的一揽子人口学变量描述,确实,人口学变量用来区分用户确实是很经典,但并不适用于所有的产品研究,比如你的产品就是细分领域,比如母婴电商、某个游戏产品,目标用户群体人口学数据很集中,首先是人口学变量并不能直接落地到业务,还需要基于业务进行二次推演,不够直观,而好的分类标准应该能直接与现有的资源结合起来指导业务;其次是完全无预设的情况下,事前很难确定各个人口学变量影响的权重,那么如果要进行探索性分析,需要在问题中纳入足够多的变量。所以最好的方式是前期定性研究,通过定性方式得到一些区分人物的变量,得到定性的用户画像,再通过定量方式去验证分类变量、人物分类,从而问卷设计更有针对性。

      回收回来的问卷数据有那么多的变量,哪些变量影响着用户分类呢?怎么确定这些变量的影响权重呢?这里面就会用到统计分析方法:因子分析-聚类分析,下面结合案例说明具体分析过程:

用户画像数据分析的第一步:数据降维之因子分析法

      数据降维就要用到因子分析方法,把数据进行浓缩,所谓因子分析就是处理多变量数据的一种常用的预处理方法,使用场景是当实际的用于测量的变量较多且相关时,可以将比较繁琐复杂的变量,用几个易于解释的因子来代替原来较多的变量,从而清晰展示数据的结构,然后再用因子进行聚类分析得到分类用户。

因子分析、聚类分析模型

        以案例说明,问卷中相关的题目选项数据是以二分数据表示的,多选题数据就是多重二分法,一共有58个变量,这些变量之间存在相关关系,符合因子分析使用场景,因子分析使用SPSS来分析数据。

分析步骤:

1、选用Analyze->Data Reduction->Factor......

2、引入因子分析变量;描述统计选项卡:要对因子提取前后方差变化,选定“原始分析结果”,相关系数矩阵、KMO和球形检验系数,它表示数据是否适合做因子分析。


3、提取公因子方法;主成分分析法;提取因子的方法有很多,最常用的是主成分分析法。特征值取1,提取因子可选特征值大于1的因子。因为分析的变量测度单位不同,选相关矩阵,如果测度单位相同,则考虑用协方差矩阵。

这里简单说一下主成分分析法与因子分析法异同,具体见下:

4、旋转方法:方差最大旋转方法,因子分析需要对因子给予命名和解释,对因子旋转与否取决于因子的解释,如果不旋转因子已经很好的解释,那么就没必要旋转;否则应该旋转。

5、因子得分:作为新变量存入,

6、结果分析:

(1) KMO值与sig值:当KMO值越大时,表示变量间的共同因子越多,越适合做因子分析,根据Kaiser的观点,当KMO>0.9(很棒)、KMO>0.8(很好)、KMO>0.7(中等)、KMO>0.6(普通)、KMO>0.5(粗劣)、KMO<0.5(不能做因子分析);sig值要<0.05;

(2)公因子方差:

表示公因子对各个变量能说明的程度,每个变量的初始公因子方差都为1,共同度越大,公因子对该变量的说明的程度越大,也就是该变量对公因子的依赖程度越大。一般的基准是<0.4,就可以认为是比较低,这时变量分析中去掉比较好,上面的结果中7个因子的提取值都大于0.5,说明可以作为公共因子分析。

(3)解释的总方差:

特征值大于1以上就是比较重要的因子;下图前四个因子特征值大于1,累积贡献率表示因子可以解释原有变量百分之多少的信息,所以在分析时候需要不断去尝试不同的变量的排列组合,使累积贡献率越大越好,此案例因子取4个比较显著,所以目前为止已经将7个因子降维到4个因子。

(4)成份得分系数矩阵:

通常,因子载荷量>0.4就认为是显著的,也可以取0.5以上的,再根据提取的显著性的因子给公因子命名:

      以下第一个公因子中养鱼年限比较显著,第一个因子命名为“养鱼经验因子”,第二个公因子中“养鱼月花费”与“收入”显著,命名为“养鱼花费因子”;第三个“鱼种兴趣广泛”显著性比较高,命名第三个因子为“鱼种兴趣因子”;第四个“看帖习惯”显著性比较高,命名为“内容习惯因子”。

  数据视图得到这四个公因子,所以最后从7个因子中提取到了这4个因子。

      到此因子分析就算完成了,我们的目的达成了一小半,简言之就是我们得到了划分用户群体的依据,那么如何对用户进行分类,可以分成几类呢?这就需要使用统计学中的另一种统计分析方法——聚类分析,具体分析请等下一篇文章更新......


声明:本文为个人原创,辛苦码字比较不易,坚持原创,如觉得有用需转载请注明出处,谢谢。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容