2019-03-01（未完成）

最近在学习数据分析，接触到知乎上知友“”的内容，有一篇是他将豆瓣上6万本书籍基础信息爬到并且分享给大家（链接：），于是自己也想以这部分数据为例，以我自己对数据分析的方法论，实践一次。

前提有个说明，是因为不知道他是以什么样的规则爬取的，所以样本可能有偏差，但这不可避免，因此不再讨论。

出发点

数据分析第一步：知道自己为什么要分析。

分析的目的是为了解决一个业务问题、验证一个假设、发现一个探索性的规律等，而不是为了分析而分析。

所以我给自己预设一个场景：我是一个图书爱好者，希望能从这里面找到好书；以及我是一个出版行业的入门者，希望能从这里面的数据探索一些趋势，增加对初版行业的了解。

初始数据的整理

拿到这张表，我发现表格还是需要整理的，例如：

1、作者里面有出现作者和译者信息的情况、有多个作者的情况；

2、出版时间有多种格式

3、价格有不同类型的价格（如台币）、货币的不同表现方法

4、...

因此需要对数据做基础的清晰和整理，使之成为一张可以分析的表格。

但在实际清理过程中发现，直接在原数据里做清理，工作量和难度都很大，因此决定先做正常分析，分析过程中发现有误差的情况下，再做处理。这样灵活性更高，并且显著降低工作量。

分析

1、我想知道哪些书是好书

首先从图书分值分布来看，整体打分是符合正项分布的。另外也能看到一个异常：约有6600本书目前还是0分，即还没有人看，占比超过了10%。

单看正项分布的区域，发现大部分书籍的评价是在7.4-8.7分左右，因此可以初步猜测当一本书分数小于7.4分且评价人数不是过低（比如低于200、300），可能内容质量就已经不高；而高于8.7且有很多人看的书，基本可以判断为很高质量的书籍了。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。