【一点分享】用Mysql分析豆瓣数据,竟有意外的收获。

这两天在精选影视内容,已初步准(爬)备(虫)好了部分数据。(p.s. 对爬虫感觉兴趣的朋友请关注后续文章)按之前的数据分析七步法,下一步是数据处理。本次尝试完全使用Mysql来处理,不借用其他工具。

一、数据处理——数组字段拆分

上来的第一个难题就是电影的类型字段,是个多值类似数组格式,需要拆分。网上也有很多不同的解决方案,要用到自定义函数、存储教程、临时中间表、json,步骤较长,不易理解。要是有简洁的方法就好了。

笔者昨天分享了with使用,正好其中有使用with的递归来解决问题。还记得笔者是怎么对with评价的吗?那就是具备了编程语言的功能,今天再感受一回神奇魔力吧。

直接上图,简洁流畅,with的递归真是妙不可言。

二、统计分析

1、简单统计

2、窗口函数统计

3、关联过滤——inner join

三、作业

准备好的这份新数据,不只有以上的实战练习case,还有很多可做的。留下几道作业,有兴趣的朋友请在公众号后台回复sql获取数据库账号进行练习。

    每年上映的评分最高和最低的剧影

    出演过至少2部的演员有哪些,按部数倒序

    单一导演和联合导演的剧影评分对比

    评分前100的剧影来自哪些国家地区

以上作业代表是不同角度来分析——就是维度,通常以dim表示,还可以有维度交叉进行分析,后续文章再予分享,敬请关注。


说明:当前数据不完备,有些统计的结果不具有代表意义,权当训练。当数据集到一定规模后,再执行统计和分析,期待后续有意思的发现。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容