聚类分析可以用在APP及网站数据分析、用户画像分析上。
1.什么是聚类分析
聚类分析就是把看得见的实体对象(如桌子、人、树木等)或看不见的抽象对象(如情绪、观念等)进行分组,将它们中具有类似特征的对象划分到一块,形成很多总体特征不同的“小团体”,同时这个过程是人为主观的—最终由我们来给这些分类及其特征下定义,从而在具体的业务场景中应用它们。生活中我们经常讲“物以类聚,类以群分”,说的就是不同的人和事物因特征的相似而归并成一类,形成了很多大大小小的分组/类。
人以群分
聚类分析作为一种多元统计分析方法,其目的在于按照个体或样本的特征将其分类,使得同一类别下的个体具有尽可能高的同质性,而不同类别/组别之间则是尽可能高的异质性。
举例来讲,有2个不同的爱好者组成的松散组织—球迷协会、摄影协会。球迷协会中清一色的足球狂热者,个个谈起足球来眉飞色舞;摄影协会内的成员个个手握“长枪短炮”,最大的爱好就是对着美女和美景一通“咔咔”。这2个团体中的成员“臭味相投”,有共同的爱好和志趣;而作为集体的球迷协会和摄影协会,因团体各自的偏好不同,毫无共性,小团体和小团体之间的价值观和思想倾向也大相径庭。
主要步骤
复杂的原理就不说了,怕大家看着发晕,这些环节我就一带而过,因为在接下来的分析中我会用鲜活的案例让大家好好“反刍”一下。进行聚类分析的工具是SPSS 20.0,用的聚类方法是K-means聚类法,进行分析的步骤分为4个环节,及数据预处理、定义距离函数、聚类或分组及评估结果。
我就以一个公众号为例做个分析
1.案例背景
某新媒体培训机构的账号,从去年年初的1月中旬到7月中旬,时间跨度刚好半年。半年时间里,推文近200篇(包含副文,即第二、第三图文)。我们接下来要分析的原材料就是这段期间的文章数据、粉丝数据。
做这个聚类分析的主要目的在于:
发现其中质量较好的文章及质量最差的文章,从数据中发掘出它们,并发现它们身上存在的特征,以便将优良文风(选题、标题、内容、排版设计等)发扬下去,并避免以后再出质量不佳的文章,以期阅读量、转发分享量的提升,最终实现凭借公众号自身内容促进粉丝增长的目的。
2.数据预处理和选择聚类方法
按上述抓取数据的方法获得原始数据,需要注意的是,作分析的时候,需要将主副图文分开分析,因为一般情况下越往下所获得的点击量/阅读量就越低,分析只在同一层级的图文中进行,然后再在各类层级中进行总的内容分析。本文接下来的分析以主图文为主。
对获取的原始数据中的异常值进行剔除,即除去数据中明显异常大或异常小的数据值,以免对整体分析形成干扰。
将上述Excel原始数据导入SPSS中,检查一下数据的“度量标准”是否有误。“度量标准”下面有四种类型的数据,即名义、序号、度量。其中,名义是对数据分类的数据类型,如姓名、标题等;序号是对数据进行排序得到的变量;度量则是数据进行测量得到的数值型变量。在原始数据中,日期、标题和发文时间点等数据也属于名义型变量(时间点在SPSS中不分析),其他的变量皆为度量变量,是着重分析的变量。
数据预处理后,按“分析à分类àK-均值聚类”的路径选择聚类方法。
打开“K-均值聚类”会话框,将其中的变量输入到“变量”框中,在“保存”项里,勾选“聚类成员”“与聚类中心的距离”这两项,以便运算后将得到的分类信息显示在表格里,判断分类。
其中,最重要的一环是选择“聚类数”,这里需要根据经验和数据的数量来确定,有时需要进行“试错”。我依次按2次、3次、5次、6次和7次进行运算,发现输入5次得到的“解”最为理想,分类不多不少,特征很突出,有分析和参考的价值。
设置好项目后,进行确定,得到如下图所示的运算结果:
注意上图中红色虚线框部分的数据,分别是“分类数据”和“距离分类中心距离”的数据,然后将结果另存为“excel2007至2010”格式,得出的数据和spss中所呈现的保持一致。
3.处理经聚类分析得到的数据
先将得出的数据进行替换处理,即分类数据中的“1”“2”…“5”替换成“第一类“”第二类”…”第五类“,然后再
进行透视表处理,各个变量在“值字段设置“里皆取平均值,见下表:
经透视表处理好数据后,将该数据“全选”并“粘贴”“复制”到新的sheet里,以便按之前的评价指标体系将不同类型数据进行分类整理。将各数据进行“热力图示化”,以颜色深浅和冷暖显示数值的高低差异,直观的反映数据的大小变化情况。从而得到下表:
从上表中可以看到,近200篇文章可以分为5类,按照上述提及的微信文章质量评估体系,每一类的特征都不一样(以下各指标的程度由低到高依次分为“非常差-较差-一般-较好-非常好”,这种比较在这5个类别之间进行,具有相对性):
第一类:传播力非常强,在一周内传播时效性显著,但粉丝增长度低,且文章具有非常高的价值(对目标用户来说很“值”),同时相应的粉丝也非常活跃,;
第二类:文章一周内的传播力较强,粉丝增长量较高,文章的价值度较高,粉丝活跃性良好;
第三类:文章传播效率地,粉丝取关量大,文章价值度低,粉丝活跃性非常差;
第四类:文章传播效率一般,粉丝增长量较大,文章价值度一般,粉丝活跃度一般;
第五类:文章传播效率一般,粉丝增长度一般,文章价值度一般,粉丝活跃度一般。
如果微信运营的经验不足和对数据不敏感,可以进一步将上述指标数据值进行标准化,乘以权重系数(根据过往经验和公司强调的KPI来决定)后相加,从而使多指标合并起来(如粉丝增长指标=-取消关注标准值*权重1+新关注数标准值*权重2+净增粉丝数标准值*权重3),在同一维度的不同分类下的指标值可以进行比较,其大小用“”和“”的五角星来表示,得到这5类文章各指标的量化表:
各个分类的特征明晰之后,我们需要找到各分类对应的文章,查看他们的标题、内容和发文时间点,也就是上文所提及的“文章信息指标”,值得注意的是,此处通过函数“weekday”可以查询出发文日属于“周几”,多添加一个“时间维度”对于我们分析发文时间很有帮助。结果如下表所示:
从中可以看到,其中有些广告性的一篇软文会在不同日期出现很多次,这是为了达到一定的营销转化目的,我们在分析时仅保留最初的一篇。
分析的顺序是这样的:先分析文章质量最佳的和最差的,然后再分析一般性的文章所具有的特点。
聚类分析在运营中的延伸应用
1.细分市场
聚类分析是细分市场的有效工具,可以帮我们在做市场/运营战略决策时找到新的、可行的潜在市场。通过市场调研,我们可以获取本公司和主要竞争者是品牌方面的“第一提及知名度”、“提示前知名度”和“提示后知名度”等指标值,将这些作为聚类分析的变量,将本公司和潜在对手的产品或品牌进行划分。在聚类以后,结合每一产品/品牌的多维度属性研究,可以发现哪些属性组合目前还没有融入所要进行的产品/品牌中,从而找到公司在市场中的机会,不至于身处竞争激烈的市场“红海”中。
2.用户画像
聚类分析可以用来发现不同的用户群体,并且通过消费者的人口统计学特征、社会属性和消费属性来刻画出不同的用户群体的特征,也就是对不同的用户群体进行“用户画像”分析。我们在网站上、APP上获取了大量的用户数据后,通过分组聚类出具有相似浏览行为的用户,并分析用户的共同特征,可以更好的帮助我们了解自身的产品/服务所面向的顾客,以便我们能及时做出适销对路的产品/服务,或是及时的产品/服务优化。
结语
通过这个实际案例,大家应该能领略到聚类分析的魅力了吧。但是,运营喵要说的是,聚类分析方法只是“术”,是工具而已,重要的是对运营事务的深刻理解,以及一整套的数据分析流程(也可以称之为“数据分析方法论”)。根据上面的实际案例,运营喵认为数据分析的整个流程应该是这个样子的: