使用SPSS对公众号文章进行聚类分析

千里之行,始于足下,今天是第3/1000步。

在公众号的日常运营中,我们经常需要对文章进行数据分析,其中最有代表性的就是双高(高打开率、高分享率)、双低分析。这个分析可以非常好地帮助我们了解哪些文章既是选题比较好(包括标题),而同时内容又是比较受用户欢迎的。

那具体我们该如何进行双高双低分析呢?

一、常规的分类统计法及存在的问题

按照最常规的思路,我们可以先将文章进行分类,然后统计不同类别文章的平均打开率、分享率,通过Excel里面的透视图就可以很直观地了解哪类文章属于双高,而哪些又属于双低。

分类的方式有很多种,比如可以按照文章所属栏目、作者甚至是星期几,另外一种思路就是通过不同维度给文章打标签,比如内容标签(属于什么类型的内容)、类型标签(文章属于什么类型,科普文、鸡汤文等)、情感标签(正向、负向;开心、焦虑、恐惧等)。下图就是一个通过内容标签对文章进行分类,然后在Excel里得到的透视图,通过这个图我们可以很直观地看出双高文章标签是「个人成长」、「话题讨论」,「金融投资」和「商品推广」则是双低。


利用标签分类法进行双高双低分析

这种对事物先进行分类,进而归纳并发现其规律是一种非常简单且实用的方法,但也有自身的局限性,主要表现在两个方面:

1、凭经验和专业知识不能准确地分类。

比如对公众号打标签,标签有很多维度,一篇文章是属于标签A还是B很多时候往往凭主观因素判断。

2、单元变量很难反映事物的全部特征。

即使按照某种规律进行了分类,但是这种分类并不能完全反映背后的规律。还是上图为例,虽然「话题讨论」类文章「阅读数」、「在看数」最高,但是这个标签里仍然有数据比较差的文章,甚至低于「商品推广」类的某些文章。

那除了分类法,还有什么其他的统计方法可以进行双高双低分析吗?

有的,这就是我们今天要介绍的聚类分析法。

二、什么是聚类分析法

1、定义

聚类分析也称群分析或点群分析,它是研究多要素事物分类问题的数量方法,是一种新兴的多元统计方法,是当代分类学与多元分析的结合。其基本原理是,根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。

通俗的讲,聚类分析就是根据事物彼此不同的属性进行辨认,将具有相似属性的事物聚为一类,使得同一类的事物具有高度的相似性。应用到公众号文章上,我们认为双高文章一定具备某些类似属性(可能已知,也可能未知),利用聚类分析就可以很好地把这些好文章给找出来。

常用聚类方法:系统聚类法,K-均值法,二阶聚类法等。

聚类分析法背后的数学原理比较复杂,我们可以直接拿过来用,不用太深究其背后的原理。

2、聚类分析法和标签分析法的区别

通过上面的介绍,我们可以很明显地看出聚类分析和标签分析法的区别:

1)标签分析法需要先找出规律,然后分类,最后统计数据。

2)而聚类分析法完全不用先假设条件,完全通过对文章数据(打开率、分享率)的分析,找出拥有双高特征的文章,然后我们才对双高文章进行分析并从中找出规律来。

三、教程:使用SPSS软件进行聚类分析

1、安装SPSS软件,比如IBM SPSS Statistics

可以从官网下载试用版,或者网上搜索下载链接。

2、数据准备

可以利用壹伴等工具将公众号后台数据导出来,把需要分析的维度保留下来。下表就是一个最简单的数据表格,仅包括「话题讨论」、「打开率」和「分享率」。

文章数据表格

3、SPSS软件使用

1)将上述数据拷贝到SPSS软件的「数据视图」表格里。

注意:拷贝完成后点击「变量视图」查看一下各个变量(默认是VAR00001、VAR00002格式,可以改成有意义的名字)的类型和宽度。

比如“标题”(默认是VAR00001,手动修改)宽度默认是51(25.5个中文),可能不够,我们将其调整为80。另外「打开率」、「分享率」的类型是「字符串」,应该改成百分比,这个点击类型无法直接修改。我们可以通过菜单「数据」——「定义变量属性」来进行修改。

2)在「数据视图」中选中「标题」、「打开率」和「分享率」这三列,点击菜单「分析」——「分类」——「K-均值聚类」。

在弹出的对话框中将「打开率」、「分享率」设置为变量,然后点击「保存」按钮,复选其中两个复选框。「聚类数」设置为4,因为这里我们希望得到「高高」、「高低」、「低高」和「低低」这四类文章。点击「确定」按钮系统就自动开始运算。

3)系统运行完成后,会弹出一个界面,里面显示了本次聚类的结果(因为「聚类数」设置为4,所以有4类结果)。

通过「打开率」和「分享率」这两个数据,我们可以看出聚类2属于双高,共有11篇文章,而聚类4属于双低,共有48篇文章。

4)这个时候,我们再回到「数据视图」,发现表格里多了两列「QCL_1」和「QCL_2」,其中「QCL_1」代表的就是所属的聚类。

5)将这个表格存为Excel文件,在Excel里通过透视图就能很直观地看出哪些文章属于双高,哪些文章属于双低。然后我们可以对双高文章进行进一步分析,比如利拥NLPIR工具分析词频和标题情感,我们还可以对这些文章再进行分类(比如按标签,按作者),我们可以得出双高分钟里哪些标签占比比较高,哪些作者写的文章比较多。


不积跬步,无以至千里,先迈出它10步。


转载说明:本文为“三少爷的见”原创文章,转载请务必注明出处。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容