这两天在精选影视内容,已初步准(爬)备(虫)好了部分数据。(p.s. 对爬虫感觉兴趣的朋友请关注后续文章)按之前的数据分析七步法,下一步是数据处理。本次尝试完全使用Mysql来处理,不借用其他工具。
一、数据处理——数组字段拆分
上来的第一个难题就是电影的类型字段,是个多值类似数组格式,需要拆分。网上也有很多不同的解决方案,要用到自定义函数、存储教程、临时中间表、json,步骤较长,不易理解。要是有简洁的方法就好了。
笔者昨天分享了with使用,正好其中有使用with的递归来解决问题。还记得笔者是怎么对with评价的吗?那就是具备了编程语言的功能,今天再感受一回神奇魔力吧。
直接上图,简洁流畅,with的递归真是妙不可言。
二、统计分析
1、简单统计
2、窗口函数统计
3、关联过滤——inner join
三、作业
准备好的这份新数据,不只有以上的实战练习case,还有很多可做的。留下几道作业,有兴趣的朋友请在公众号后台回复sql获取数据库账号进行练习。
每年上映的评分最高和最低的剧影
出演过至少2部的演员有哪些,按部数倒序
单一导演和联合导演的剧影评分对比
评分前100的剧影来自哪些国家地区
以上作业代表是不同角度来分析——就是维度,通常以dim表示,还可以有维度交叉进行分析,后续文章再予分享,敬请关注。
说明:当前数据不完备,有些统计的结果不具有代表意义,权当训练。当数据集到一定规模后,再执行统计和分析,期待后续有意思的发现。