利用聚类算法研究大数据微信公众号实例

聚类分析可以用在APP及网站数据分析、用户画像分析上。

1.什么是聚类分析

聚类分析就是把看得见的实体对象（如桌子、人、树木等）或看不见的抽象对象（如情绪、观念等）进行分组，将它们中具有类似特征的对象划分到一块，形成很多总体特征不同的“小团体”，同时这个过程是人为主观的—最终由我们来给这些分类及其特征下定义，从而在具体的业务场景中应用它们。生活中我们经常讲“物以类聚，类以群分”，说的就是不同的人和事物因特征的相似而归并成一类，形成了很多大大小小的分组/类。

人以群分

聚类分析作为一种多元统计分析方法，其目的在于按照个体或样本的特征将其分类，使得同一类别下的个体具有尽可能高的同质性，而不同类别/组别之间则是尽可能高的异质性。

举例来讲，有2个不同的爱好者组成的松散组织—球迷协会、摄影协会。球迷协会中清一色的足球狂热者，个个谈起足球来眉飞色舞；摄影协会内的成员个个手握“长枪短炮”，最大的爱好就是对着美女和美景一通“咔咔”。这2个团体中的成员“臭味相投”，有共同的爱好和志趣；而作为集体的球迷协会和摄影协会，因团体各自的偏好不同，毫无共性，小团体和小团体之间的价值观和思想倾向也大相径庭。

图片发自简书App

主要步骤

复杂的原理就不说了，怕大家看着发晕，这些环节我就一带而过，因为在接下来的分析中我会用鲜活的案例让大家好好“反刍”一下。进行聚类分析的工具是SPSS 20.0，用的聚类方法是K-means聚类法，进行分析的步骤分为4个环节，及数据预处理、定义距离函数、聚类或分组及评估结果。

图片发自简书App

我就以一个公众号为例做个分析

1.案例背景

某新媒体培训机构的账号，从去年年初的1月中旬到7月中旬，时间跨度刚好半年。半年时间里，推文近200篇（包含副文，即第二、第三图文）。我们接下来要分析的原材料就是这段期间的文章数据、粉丝数据。

做这个聚类分析的主要目的在于：

发现其中质量较好的文章及质量最差的文章，从数据中发掘出它们，并发现它们身上存在的特征，以便将优良文风（选题、标题、内容、排版设计等）发扬下去，并避免以后再出质量不佳的文章，以期阅读量、转发分享量的提升，最终实现凭借公众号自身内容促进粉丝增长的目的。

2.数据预处理和选择聚类方法

按上述抓取数据的方法获得原始数据，需要注意的是，作分析的时候，需要将主副图文分开分析，因为一般情况下越往下所获得的点击量/阅读量就越低，分析只在同一层级的图文中进行，然后再在各类层级中进行总的内容分析。本文接下来的分析以主图文为主。

主副图文分析要分开

对获取的原始数据中的异常值进行剔除，即除去数据中明显异常大或异常小的数据值，以免对整体分析形成干扰。

将上述Excel原始数据导入SPSS中，检查一下数据的“度量标准”是否有误。“度量标准”下面有四种类型的数据，即名义、序号、度量。其中，名义是对数据分类的数据类型，如姓名、标题等；序号是对数据进行排序得到的变量；度量则是数据进行测量得到的数值型变量。在原始数据中，日期、标题和发文时间点等数据也属于名义型变量（时间点在SPSS中不分析），其他的变量皆为度量变量，是着重分析的变量。

数据预处理后，按“分析à分类àK-均值聚类”的路径选择聚类方法。

选择K-均值聚类（K-means聚类）方法

打开“K-均值聚类”会话框，将其中的变量输入到“变量”框中，在“保存”项里，勾选“聚类成员”“与聚类中心的距离”这两项，以便运算后将得到的分类信息显示在表格里，判断分类。

其中，最重要的一环是选择“聚类数”，这里需要根据经验和数据的数量来确定，有时需要进行“试错”。我依次按2次、3次、5次、6次和7次进行运算，发现输入5次得到的“解”最为理想，分类不多不少，特征很突出，有分析和参考的价值。

进行“聚类分析”选项设置

设置好项目后，进行确定，得到如下图所示的运算结果：

聚类分析运算结果

注意上图中红色虚线框部分的数据，分别是“分类数据”和“距离分类中心距离”的数据，然后将结果另存为“excel2007至2010”格式，得出的数据和spss中所呈现的保持一致。

输出数据

3.处理经聚类分析得到的数据

先将得出的数据进行替换处理，即分类数据中的“1”“2”…“5”替换成“第一类“”第二类”…”第五类“，然后再

进行透视表处理，各个变量在“值字段设置“里皆取平均值，见下表：

运用透视表处理经聚类分析得到的数据

经透视表处理好数据后，将该数据“全选”并“粘贴”“复制”到新的sheet里，以便按之前的评价指标体系将不同类型数据进行分类整理。将各数据进行“热力图示化”，以颜色深浅和冷暖显示数值的高低差异，直观的反映数据的大小变化情况。从而得到下表：

微信文章质量评估体系表

从上表中可以看到，近200篇文章可以分为5类，按照上述提及的微信文章质量评估体系，每一类的特征都不一样（以下各指标的程度由低到高依次分为“非常差-较差-一般-较好-非常好”，这种比较在这5个类别之间进行，具有相对性）：

第一类：传播力非常强，在一周内传播时效性显著，但粉丝增长度低，且文章具有非常高的价值（对目标用户来说很“值”），同时相应的粉丝也非常活跃，；

第二类：文章一周内的传播力较强，粉丝增长量较高，文章的价值度较高，粉丝活跃性良好；

第三类：文章传播效率地，粉丝取关量大，文章价值度低，粉丝活跃性非常差；

第四类：文章传播效率一般，粉丝增长量较大，文章价值度一般，粉丝活跃度一般；

第五类：文章传播效率一般，粉丝增长度一般，文章价值度一般，粉丝活跃度一般。

如果微信运营的经验不足和对数据不敏感，可以进一步将上述指标数据值进行标准化，乘以权重系数（根据过往经验和公司强调的KPI来决定）后相加，从而使多指标合并起来（如粉丝增长指标=-取消关注标准值*权重1+新关注数标准值*权重2+净增粉丝数标准值*权重3），在同一维度的不同分类下的指标值可以进行比较，其大小用“”和“”的五角星来表示，得到这5类文章各指标的量化表：

微信文章质量量化评估表

各个分类的特征明晰之后，我们需要找到各分类对应的文章，查看他们的标题、内容和发文时间点，也就是上文所提及的“文章信息指标”，值得注意的是，此处通过函数“weekday”可以查询出发文日属于“周几”，多添加一个“时间维度”对于我们分析发文时间很有帮助。结果如下表所示：

各分类下的具体图文信息

从中可以看到，其中有些广告性的一篇软文会在不同日期出现很多次，这是为了达到一定的营销转化目的，我们在分析时仅保留最初的一篇。

分析的顺序是这样的：先分析文章质量最佳的和最差的，然后再分析一般性的文章所具有的特点。

聚类分析在运营中的延伸应用

1．细分市场

市场细分

聚类分析是细分市场的有效工具，可以帮我们在做市场/运营战略决策时找到新的、可行的潜在市场。通过市场调研，我们可以获取本公司和主要竞争者是品牌方面的“第一提及知名度”、“提示前知名度”和“提示后知名度”等指标值，将这些作为聚类分析的变量，将本公司和潜在对手的产品或品牌进行划分。在聚类以后，结合每一产品/品牌的多维度属性研究，可以发现哪些属性组合目前还没有融入所要进行的产品/品牌中，从而找到公司在市场中的机会，不至于身处竞争激烈的市场“红海”中。

2.用户画像

用户画像的主要维度

聚类分析可以用来发现不同的用户群体，并且通过消费者的人口统计学特征、社会属性和消费属性来刻画出不同的用户群体的特征，也就是对不同的用户群体进行“用户画像”分析。我们在网站上、APP上获取了大量的用户数据后，通过分组聚类出具有相似浏览行为的用户，并分析用户的共同特征，可以更好的帮助我们了解自身的产品/服务所面向的顾客，以便我们能及时做出适销对路的产品/服务，或是及时的产品/服务优化。

结语

通过这个实际案例，大家应该能领略到聚类分析的魅力了吧。但是，运营喵要说的是，聚类分析方法只是“术”，是工具而已，重要的是对运营事务的深刻理解，以及一整套的数据分析流程（也可以称之为“数据分析方法论”）。根据上面的实际案例，运营喵认为数据分析的整个流程应该是这个样子的：

数据分析的一整套流程

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,100评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,308评论 3赞 388
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,718评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,275评论 1赞 287
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,376评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,454评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,464评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,248评论 0赞 269
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,686评论 1赞 306
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,974评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,150评论 1赞 342
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,817评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,484评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,140评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,374评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,012评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,041评论 2赞 351

利用聚类算法研究大数据微信公众号实例

推荐阅读更多精彩内容