利用Excel对Google Play Store数据进行分析

前言:

鉴于简书上已有利用Python对该数据进行过分析,因此尝试用Excel对该数据进行分析。

(前一版发布与3.28,于10.6修改,在看完《用数据讲故事》后仅针对部分图表的内容进行优化,并未对分析思路及图表类型等进行优化)

(10.9:修改的图表中的描述仍然包含一些不严谨的地方,暂时未想好应该如何描述更加准确)


数据集来自Kaggle,数据使用许可:This work is licensed under the Creative Commons Attribution 3.0 Unported License. To view a copy of this license, visit~ http://creativecommons.org/licenses/by/3.0/

该googleplaystore数据部分截图如下:

googleplaystore.csv
googleplaystore.csv

该数据集有13列,10842行。

13个字段分别为:App名称、类别、评分、评论量、应用大小、安装量级别、价格类型、价格、内容分级、体裁、最近更新日期、当前版本、安卓版本要求。

其中评分和评论数为数值型,其他一些含有数值含义的字段均需要转换。

评分和评论数
其他一些字段

分析目标确定:

这13个字段中

1. 类别、安装量、价格类型、内容分级可以直接用饼图或数据透视表了解其各类中每种的占比情况;

2. 评分和评论数可以对其进行一定的分区后制作饼图了解其各层次的分布状况;

3. 类别和价格类型之间的关系可以尝试利用数据透视表制作百分比堆积条形图分析其分布状况;同理也可尝试分析类别与分级的关系;

4. 可以结合1. 和2. 的分析结果观察是否适合用箱形图尝试分析类别、安装量级、价格类型(Paid和Free)、内容分级、安卓版本要求等字段对应的App的评分的波动情况。

数据清洗:

该数据是从网上直接下载得到的,相对规整,存在的一些问题是个别行的值与相应列的字段不对应,可能会从某一单元格开始整体提前,如图:

解决方法是:筛选找出这些存在问题的行---定位可见单元格---删除。


Part.1

一、类别数量及占比分析

类别条形图展示(修改前)


类别条形图展示(修改后)
APP类别占比饼图(修改前)


前三类APP占比(修改后)
类别数据透视表

可以较明显的观察到家庭(Family)、游戏(Game)和工具(Tools)这三类是App最为热门,三者共占据了约三分之一的App总量,均大幅高于其他类别的App数量。

二、各安装量等级下App数量分析

各安装量等级下App数目

在这个条形图中, 在不同安装量等级下,App数目出现了明显的相隔出现高峰的现象,因此换一种展示方式观察:

各安装量等级下App数目

通过上面两个条形图可以明显发现"1"开头的安装量下的app数目大于低于其一级的"5"开头的安装量下app的数目,该反常现象值得进一步思考分析,但限于对数据来源缺乏了解,无法深入探究分析。

三、收费、免费App数量占比分析

收付费占比饼图(修改前)


收付费APP占比饼图(修改后)

收费App数量为792,仅占7%,相比之下,免费App数量则为9985,占93%。

四、内容分级数量占比分析

内容分级数据透视表

18岁以上成年人(Adults only 18+ )和未分级(Unrated)这两项数量异常,于是在表中筛选出这两项的内容:

筛选异常值

查证与修改:在Google Play Store中查证发现Manga Master、Best CG Photography要求为12岁以上,故将其划分到Teen中,而DraftKings - Daily Fantasy Sports、Manga Books、DC Universe Online Map未发现这三个App,故通过筛选将其隐藏。

修改后:

内容分级数量占比饼图(修改前)
内容分级数量占比(修改后)


由饼图可知,未分级(Everyone)App占总量的80%,仅有5%的App要求17+。


Part. 2

一、评分占比分析

筛选

评分相对多样,故尝试先对其进行组合后再进行分析

评分对应App数目条形图

GooglePlay Store中app的评分整体比较高,4.1到5分的App占了总量的73%。

4.4分App数目最多,APP的评分类似于正态分布,而由于有5分的上限,所以在5分出,App数量相对4.9分反而更多。

二、评论量分布分析

首先尝试创建了一个新列,通过if函数嵌套创建字段评论量区间

=IF(D2<10,"0~10",IF(D2<100,"10~100",IF(D2<1000,"100~1k",IF(D2<10000,"1k~1万",IF(D2<100000,"1~10万",IF(D2<1000000,"10~100",IF(D2<10000000,"100~1000万,","1000万+")))))))

从而进行分区,每分区为上一分区的10倍。

评论量区间占比饼图

评论量在100万以内时,每个数量级下的App数目占比大体相近,均在10%到20%的区间内。

再尝试利用折线图查看各评论量的App数量及数量累计百分比:

可以发现横坐标过大,故尝试将横坐标缩小到500:

继续缩小,由上图可以当评论数到50时已接近y = 0,故将横坐标最大值缩小到50:

评论量对应App数量及累计百分比折线图(修改前)


评论量对应App数量及累计百分比折线图(修改后)

可以看出:

当评论数为0时,对应的App数目最多,接近600,并随着评论数增加,对应App数目急剧减小;

评论数达到6后对应的App数目已经减小到100,减小趋势放缓,并且随着评论数的增加,对应App数目逐渐趋近于0,但不为0。


Part. 3

一、各类别App价格类型分布分析

各类别App下价格类型透视表
各类别App下价格类型数目百分比堆积条形图 (修改前)
各类别APP付费数目情况(修改后)

医疗类(MEDICAL)App中的付费App数目最多且占比最高,数量为100,占比为21.65%;

美妆(BEAUTY)和交通工具类(AUTO_AND_VEHICLES)全部为免费产品。

二、各类别App分级情况分布分析

在将分级情况(Content Rating)按是否分级进行划分后,制作出相关数据透视表和百分比堆积条形图如图:

各类别App下是否分级情况数据透视表
各类别下App是否分级情况百分比堆积条形图
各类别APP分级占比情况(修改后)

可以看出约会类(DATING)和娱乐类(ENTERTAINMENT)分级比例最高,且远大于其他类别的App,分别为88.79%和74.32%。

接下来直接按照分级情况(Content Rating)的原始情况制作数据透视表和百分比堆积条形图进行观察:

各类别下App分级情况数据透视表
各类别下App分级情况百分比堆积条形图

约会类(DATING)中的Mature 17+所占的比例最大,占了该类App的82.33%;在其他类中,仅有SOCIAL中Mature 17+相对多一些,但也仅占14.24%。

大部分已分级的App中,Teen为主要分级类型。

结合前面的是否分级情况来看,分级比例大的约会类是以Mature 17+占据主要分级部分,而娱乐类则是Teen占据主要部分。


Part. 4

结合Part. 1和Part. 2的分析结果,适合于用箱形图的有内容分级情况、价格类型、安装量情况、类别。

而对于安卓的版本要求制作出其数据透视表:

App安卓版本要求分组后数据透视表

由数据表可以看出:不同的版本要求的对应App数量差异巨大,且多数安卓版本要求对应的App数量较小,使用箱形图分析其评分波动情况不够准确。

一、评分与内容分级

评分和内容分级情况可制作出如下箱形图:

这四个分级整体评分分布差别并不大,评分分布与内容分级的相关程度不高。

仅有Mature 17+的App评分平均数和中位数相对较低。

结合Part. 1中内容分级数量占比饼图可发现,一个分级的App数量越多,其箱形图的异常值越多。

二、评分与价格类型

评分和价格类型可制作出如下箱形图:

可以看出Free和Paid两种类型的App的评分波动情况大体相同,两者与评分关系不大。

三、评分与安装量分级情况

评分和安装量分级情况可制作出如下箱形图:

由于安装量为0时评分不可信,故筛选掉了下载量为0+的部分App

由图可知,当App安装数量为50,000,000+及以上时,评分上边缘均小于5分,仅有个别异常值能达到5分的情况,可以看出当安装量过多时,App评分达到5分的比例越小。

同时在各安装量下的App的评分的中位数和平均数均在4.5分到4分的区间内。

同时虽然安装量为1+的时候的App的评分整体基本高于其他安装量下的App的评分,但有Part. 1的各安装量等级下App数量分析可知安装量为1+的App的数量过少,故其意义不大。

四、评分与类别

因各类别的数目差距存在较大差异,故离散点也有较大差异,如图:

为了更好的观察,将离散点去掉,如图:

可以看出,各种类App的平均评分基本都在4.5~4分内,只有约会类(DATING)的平均评分略低于4分。

从整体上看,评分相对较高的有教育类(EDUCATION)、事件类(EVENTS)、养育类(PARENTING)。


总结:

在googleplaystore数据中

1. App类别相关:家庭(Family)、游戏(Game)和工具(Tools)为谷歌应用商店App最多的三个门类;医疗类(MEDICAL)App中的付费App数目最多且占比最高,数量为100,占比为21.65%;美妆(BEAUTY)和交通工具类(AUTO_AND_VEHICLES)全部为免费产品。

2. 安装量相关:数据中不同安装量等级下,App数目会间隔出现高峰。

3. 价格类型相关:收费App数量为792,仅占7%,相比之下,免费App数量则为9985,占93%。

4. 内容分级相关:未分级(Everyone)App占总量的80%,仅有5%的App要求17+;约会类(DATING)和娱乐类(ENTERTAINMENT)分级比例最高,且远大于其他类别的App,分别为88.79%和74.32%,其中约会类(DATING)中的Mature 17+所占的比例最大,占了该类App的82.33%,而娱乐类则是Teen占据主要部分,在其他类中,仅有SOCIAL中Mature 17+相对多一些,但也仅占14.24%。

5. 评分相关:APP评分大体成正态分布,且4到5分APP占据大多数。

6. 评论数相关:当评论数为0时,对应的App数目最多,接近600,并随着评论数增加,对应App数目急剧减小。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容

  • 最近一直忙于公司项目、今天抽空总结了一下关于上线审核的一些变动!和大家分享一下相互学习。 这两天发现苹果在审核指南...
    _VisitorsZsl阅读 1,010评论 0 1
  • 因为是天上的星星,所以怎么也够不到,我努力踮一踮脚尖,不知道能不能够到我想要的…… 唯愿乘风,得我所望。
    爱喝柠七的山楂树阅读 107评论 0 0
  • 吃罢中午饭,就去爸妈那儿看看,谁知一进门,却看见不擅厨艺的爸爸在厨房做饭。我就问:“我妈呢?”爸爸说:“在后院教人...
    尹雪玲阅读 674评论 2 19
  • 文| 委子 更多阅读——欢迎点击 大凡走进《简书》的人,多是喜好点文学的,日里夜里看点书,写点句该是常事。 ...
    委子阅读 460评论 3 7