最近在学习数据分析,接触到知乎上知友“”的内容,有一篇是他将豆瓣上6万本书籍基础信息爬到并且分享给大家(链接:),于是自己也想以这部分数据为例,以我自己对数据分析的方法论,实践一次。
前提有个说明,是因为不知道他是以什么样的规则爬取的,所以样本可能有偏差,但这不可避免,因此不再讨论。
出发点
数据分析第一步:知道自己为什么要分析。
分析的目的是为了解决一个业务问题、验证一个假设、发现一个探索性的规律等,而不是为了分析而分析。
所以我给自己预设一个场景:我是一个图书爱好者,希望能从这里面找到好书;以及我是一个出版行业的入门者,希望能从这里面的数据探索一些趋势,增加对初版行业的了解。
初始数据的整理
拿到这张表,我发现表格还是需要整理的,例如:
1、作者里面有出现作者和译者信息的情况、有多个作者的情况;
2、出版时间有多种格式
3、价格有不同类型的价格(如台币)、货币的不同表现方法
4、...
因此需要对数据做基础的清晰和整理,使之成为一张可以分析的表格。
但在实际清理过程中发现,直接在原数据里做清理,工作量和难度都很大,因此决定先做正常分析,分析过程中发现有误差的情况下,再做处理。这样灵活性更高,并且显著降低工作量。
分析
1、我想知道哪些书是好书
首先从图书分值分布来看,整体打分是符合正项分布的。另外也能看到一个异常:约有6600本书目前还是0分,即还没有人看,占比超过了10%。
单看正项分布的区域,发现大部分书籍的评价是在7.4-8.7分左右,因此可以初步猜测当一本书分数小于7.4分且评价人数不是过低(比如低于200、300),可能内容质量就已经不高;而高于8.7且有很多人看的书,基本可以判断为很高质量的书籍了。