2019-03-01(未完成)

最近在学习数据分析,接触到知乎上知友“”的内容,有一篇是他将豆瓣上6万本书籍基础信息爬到并且分享给大家(链接:),于是自己也想以这部分数据为例,以我自己对数据分析的方法论,实践一次。

前提有个说明,是因为不知道他是以什么样的规则爬取的,所以样本可能有偏差,但这不可避免,因此不再讨论。

出发点

数据分析第一步:知道自己为什么要分析。

分析的目的是为了解决一个业务问题、验证一个假设、发现一个探索性的规律等,而不是为了分析而分析。

所以我给自己预设一个场景:我是一个图书爱好者,希望能从这里面找到好书;以及我是一个出版行业的入门者,希望能从这里面的数据探索一些趋势,增加对初版行业的了解。

初始数据的整理

拿到这张表,我发现表格还是需要整理的,例如:

1、作者里面有出现作者和译者信息的情况、有多个作者的情况;

2、出版时间有多种格式

3、价格有不同类型的价格(如台币)、货币的不同表现方法

4、...

因此需要对数据做基础的清晰和整理,使之成为一张可以分析的表格。

但在实际清理过程中发现,直接在原数据里做清理,工作量和难度都很大,因此决定先做正常分析,分析过程中发现有误差的情况下,再做处理。这样灵活性更高,并且显著降低工作量。

分析

1、我想知道哪些书是好书

首先从图书分值分布来看,整体打分是符合正项分布的。另外也能看到一个异常:约有6600本书目前还是0分,即还没有人看,占比超过了10%。

单看正项分布的区域,发现大部分书籍的评价是在7.4-8.7分左右,因此可以初步猜测当一本书分数小于7.4分且评价人数不是过低(比如低于200、300),可能内容质量就已经不高;而高于8.7且有很多人看的书,基本可以判断为很高质量的书籍了。


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 第三章 数据库系统 3.1 数据库管理系统的类型 通常有多个分类标准。如按数据模型分类、按用户数分类、按数据库分布...
    步积阅读 2,828评论 0 7
  • 我今天看完了长青藤的生日快乐明日香,这个故事讲的就是明香受到她妈妈的冷漠,但最后变得快乐了起来。她妈妈也改变...
    R琳茜阅读 1,406评论 0 0
  • 'double' 类型的输入参数相对应的函数 'zero'。 ----- 没有zero函数 ,其实应输入zeros
    Clemente阅读 742评论 0 0
  • 我今天做了一个选择,不知道正不正确。之前和同学一起参加了一个比赛,全程都是抱人家大腿,人家又有另外一个大腿...
    七月生吾阅读 298评论 0 0
  • 上周六的时候,带儿子去电影院看新版的《美女与野兽》。 本来他就是冲着野兽去的。 所以时间一长,碰到沉闷的人物对话时...
    郇卿阅读 366评论 0 1