前言:
鉴于简书上已有利用Python对该数据进行过分析,因此尝试用Excel对该数据进行分析。
(前一版发布与3.28,于10.6修改,在看完《用数据讲故事》后仅针对部分图表的内容进行优化,并未对分析思路及图表类型等进行优化)
(10.9:修改的图表中的描述仍然包含一些不严谨的地方,暂时未想好应该如何描述更加准确)
数据集来自Kaggle,数据使用许可:This work is licensed under the Creative Commons Attribution 3.0 Unported License. To view a copy of this license, visit~ http://creativecommons.org/licenses/by/3.0/
该googleplaystore数据部分截图如下:
该数据集有13列,10842行。
13个字段分别为:App名称、类别、评分、评论量、应用大小、安装量级别、价格类型、价格、内容分级、体裁、最近更新日期、当前版本、安卓版本要求。
其中评分和评论数为数值型,其他一些含有数值含义的字段均需要转换。
分析目标确定:
这13个字段中
1. 类别、安装量、价格类型、内容分级可以直接用饼图或数据透视表了解其各类中每种的占比情况;
2. 评分和评论数可以对其进行一定的分区后制作饼图了解其各层次的分布状况;
3. 类别和价格类型之间的关系可以尝试利用数据透视表制作百分比堆积条形图分析其分布状况;同理也可尝试分析类别与分级的关系;
4. 可以结合1. 和2. 的分析结果观察是否适合用箱形图尝试分析类别、安装量级、价格类型(Paid和Free)、内容分级、安卓版本要求等字段对应的App的评分的波动情况。
数据清洗:
该数据是从网上直接下载得到的,相对规整,存在的一些问题是个别行的值与相应列的字段不对应,可能会从某一单元格开始整体提前,如图:
解决方法是:筛选找出这些存在问题的行---定位可见单元格---删除。
Part.1
一、类别数量及占比分析
可以较明显的观察到家庭(Family)、游戏(Game)和工具(Tools)这三类是App最为热门,三者共占据了约三分之一的App总量,均大幅高于其他类别的App数量。
二、各安装量等级下App数量分析
在这个条形图中, 在不同安装量等级下,App数目出现了明显的相隔出现高峰的现象,因此换一种展示方式观察:
通过上面两个条形图可以明显发现"1"开头的安装量下的app数目大于低于其一级的"5"开头的安装量下app的数目,该反常现象值得进一步思考分析,但限于对数据来源缺乏了解,无法深入探究分析。
三、收费、免费App数量占比分析
收费App数量为792,仅占7%,相比之下,免费App数量则为9985,占93%。
四、内容分级数量占比分析
18岁以上成年人(Adults only 18+ )和未分级(Unrated)这两项数量异常,于是在表中筛选出这两项的内容:
查证与修改:在Google Play Store中查证发现Manga Master、Best CG Photography要求为12岁以上,故将其划分到Teen中,而DraftKings - Daily Fantasy Sports、Manga Books、DC Universe Online Map未发现这三个App,故通过筛选将其隐藏。
修改后:
由饼图可知,未分级(Everyone)App占总量的80%,仅有5%的App要求17+。
Part. 2
一、评分占比分析
评分相对多样,故尝试先对其进行组合后再进行分析
GooglePlay Store中app的评分整体比较高,4.1到5分的App占了总量的73%。
4.4分App数目最多,APP的评分类似于正态分布,而由于有5分的上限,所以在5分出,App数量相对4.9分反而更多。
二、评论量分布分析
首先尝试创建了一个新列,通过if函数嵌套创建字段评论量区间
=IF(D2<10,"0~10",IF(D2<100,"10~100",IF(D2<1000,"100~1k",IF(D2<10000,"1k~1万",IF(D2<100000,"1~10万",IF(D2<1000000,"10~100",IF(D2<10000000,"100~1000万,","1000万+")))))))
从而进行分区,每分区为上一分区的10倍。
评论量在100万以内时,每个数量级下的App数目占比大体相近,均在10%到20%的区间内。
再尝试利用折线图查看各评论量的App数量及数量累计百分比:
可以发现横坐标过大,故尝试将横坐标缩小到500:
继续缩小,由上图可以当评论数到50时已接近y = 0,故将横坐标最大值缩小到50:
可以看出:
当评论数为0时,对应的App数目最多,接近600,并随着评论数增加,对应App数目急剧减小;
评论数达到6后对应的App数目已经减小到100,减小趋势放缓,并且随着评论数的增加,对应App数目逐渐趋近于0,但不为0。
Part. 3
一、各类别App价格类型分布分析
医疗类(MEDICAL)App中的付费App数目最多且占比最高,数量为100,占比为21.65%;
美妆(BEAUTY)和交通工具类(AUTO_AND_VEHICLES)全部为免费产品。
二、各类别App分级情况分布分析
在将分级情况(Content Rating)按是否分级进行划分后,制作出相关数据透视表和百分比堆积条形图如图:
可以看出约会类(DATING)和娱乐类(ENTERTAINMENT)分级比例最高,且远大于其他类别的App,分别为88.79%和74.32%。
接下来直接按照分级情况(Content Rating)的原始情况制作数据透视表和百分比堆积条形图进行观察:
约会类(DATING)中的Mature 17+所占的比例最大,占了该类App的82.33%;在其他类中,仅有SOCIAL中Mature 17+相对多一些,但也仅占14.24%。
大部分已分级的App中,Teen为主要分级类型。
结合前面的是否分级情况来看,分级比例大的约会类是以Mature 17+占据主要分级部分,而娱乐类则是Teen占据主要部分。
Part. 4
结合Part. 1和Part. 2的分析结果,适合于用箱形图的有内容分级情况、价格类型、安装量情况、类别。
而对于安卓的版本要求制作出其数据透视表:
由数据表可以看出:不同的版本要求的对应App数量差异巨大,且多数安卓版本要求对应的App数量较小,使用箱形图分析其评分波动情况不够准确。
一、评分与内容分级
评分和内容分级情况可制作出如下箱形图:
这四个分级整体评分分布差别并不大,评分分布与内容分级的相关程度不高。
仅有Mature 17+的App评分平均数和中位数相对较低。
结合Part. 1中内容分级数量占比饼图可发现,一个分级的App数量越多,其箱形图的异常值越多。
二、评分与价格类型
评分和价格类型可制作出如下箱形图:
可以看出Free和Paid两种类型的App的评分波动情况大体相同,两者与评分关系不大。
三、评分与安装量分级情况
评分和安装量分级情况可制作出如下箱形图:
由于安装量为0时评分不可信,故筛选掉了下载量为0+的部分App
由图可知,当App安装数量为50,000,000+及以上时,评分上边缘均小于5分,仅有个别异常值能达到5分的情况,可以看出当安装量过多时,App评分达到5分的比例越小。
同时在各安装量下的App的评分的中位数和平均数均在4.5分到4分的区间内。
同时虽然安装量为1+的时候的App的评分整体基本高于其他安装量下的App的评分,但有Part. 1的各安装量等级下App数量分析可知安装量为1+的App的数量过少,故其意义不大。
四、评分与类别
因各类别的数目差距存在较大差异,故离散点也有较大差异,如图:
为了更好的观察,将离散点去掉,如图:
可以看出,各种类App的平均评分基本都在4.5~4分内,只有约会类(DATING)的平均评分略低于4分。
从整体上看,评分相对较高的有教育类(EDUCATION)、事件类(EVENTS)、养育类(PARENTING)。
总结:
在googleplaystore数据中
1. App类别相关:家庭(Family)、游戏(Game)和工具(Tools)为谷歌应用商店App最多的三个门类;医疗类(MEDICAL)App中的付费App数目最多且占比最高,数量为100,占比为21.65%;美妆(BEAUTY)和交通工具类(AUTO_AND_VEHICLES)全部为免费产品。
2. 安装量相关:数据中不同安装量等级下,App数目会间隔出现高峰。
3. 价格类型相关:收费App数量为792,仅占7%,相比之下,免费App数量则为9985,占93%。
4. 内容分级相关:未分级(Everyone)App占总量的80%,仅有5%的App要求17+;约会类(DATING)和娱乐类(ENTERTAINMENT)分级比例最高,且远大于其他类别的App,分别为88.79%和74.32%,其中约会类(DATING)中的Mature 17+所占的比例最大,占了该类App的82.33%,而娱乐类则是Teen占据主要部分,在其他类中,仅有SOCIAL中Mature 17+相对多一些,但也仅占14.24%。
5. 评分相关:APP评分大体成正态分布,且4到5分APP占据大多数。
6. 评论数相关:当评论数为0时,对应的App数目最多,接近600,并随着评论数增加,对应App数目急剧减小。