【一点分享】用Mysql分析豆瓣数据，竟有意外的收获。

这两天在精选影视内容，已初步准(爬)备(虫)好了部分数据。（p.s. 对爬虫感觉兴趣的朋友请关注后续文章）按之前的数据分析七步法，下一步是数据处理。本次尝试完全使用Mysql来处理，不借用其他工具。

一、数据处理——数组字段拆分

上来的第一个难题就是电影的类型字段，是个多值类似数组格式，需要拆分。网上也有很多不同的解决方案，要用到自定义函数、存储教程、临时中间表、json，步骤较长，不易理解。要是有简洁的方法就好了。

笔者昨天分享了with使用，正好其中有使用with的递归来解决问题。还记得笔者是怎么对with评价的吗？那就是具备了编程语言的功能，今天再感受一回神奇魔力吧。

直接上图，简洁流畅，with的递归真是妙不可言。

二、统计分析

1、简单统计

2、窗口函数统计

3、关联过滤——inner join

三、作业

准备好的这份新数据，不只有以上的实战练习case，还有很多可做的。留下几道作业，有兴趣的朋友请在公众号后台回复sql获取数据库账号进行练习。

每年上映的评分最高和最低的剧影

出演过至少2部的演员有哪些，按部数倒序

单一导演和联合导演的剧影评分对比

评分前100的剧影来自哪些国家地区

以上作业代表是不同角度来分析——就是维度，通常以dim表示，还可以有维度交叉进行分析，后续文章再予分享，敬请关注。

说明：当前数据不完备，有些统计的结果不具有代表意义，权当训练。当数据集到一定规模后，再执行统计和分析，期待后续有意思的发现。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。