数据分析之SQL面试题

作为数据分析师,使用的最多的莫过于SQL语句,这里拿几道典型的SQL面试题为例,学习一下数据库知识。
自己搭建MySQL服务器太麻烦,可以使用在线数据库

发现sqlzoo是个不错的SQL学习网站

【2018-12-19更新】
sqlfiddle在线数据库的MySQL版本是5.6,不支持row_number()
于是又在电脑上装了最新的MySQL8.0

练习1 计算连续登陆天数 关键词 row_number

百度数据部门的面试题,主要考察row_number
题目:SQL语句如何查询各个用户最长的连续登陆天数?如图左边是源表User,右边是需要达到的查询结果。


左边源表,右边期望结果
首先在在线数据库中创建表,插入上图左边源表数据
CREATE TABLE IF NOT EXISTS `loadrecord` (
  `uid` int(6) unsigned NOT NULL,
  `loadtime` varchar(200) NOT NULL,
  PRIMARY KEY (`uid`,`loadtime`)
) DEFAULT CHARSET=utf8;
INSERT INTO `loadrecord` (`uid`, `loadtime`) VALUES
  ('201', '2017/1/1'),
  ('201', '2017/1/2'),
  ('202', '2017/1/2'),
  ('202', '2017/1/3'),
  ('203', '2017/1/3'),
  ('201', '2017/1/4'),
  ('202', '2017/1/4'),
  ('201', '2017/1/5'),
  ('202', '2017/1/5'),
  ('201', '2017/1/6'),
  ('203', '2017/1/6'),
  ('203', '2017/1/7');

答案参考 https://bbs.csdn.net/topics/392243867

#运行成功
Select UID,max(cnt) as cnt
From (
            Select UID,Grp_No,count(*) as cnt
            From (
                    Select UID,LoadTime,(Day(LoadTime)-ROW_NUMBER() OVER (Partition By UID Order By UID,LoadTime)) as Grp_No 
                    From loadrecord 
                  ) a
            Group By UID,Grp_No
      ) a
Group By UID
运行成功

过程分析:

#第一步
#判断连续的核心是row_number
#因为row_number是连续的
#所以day-row_number,如果值是恒定的,说明也是连续的,反之一定会变化
select uid,(day(loadtime)-row_number() over(partition by uid order by uid) ) AS cnt 
from loadrecord;

#第二步
#第一步得到的结果还不是很明显,需要分组用count()计数,取得不同连续值的次数
SELECT uid,count(*) FROM
(
SELECT uid,(DAY(loadtime)-row_number() over(PARTITION BY uid ORDER BY uid) ) AS cnt 
FROM loadrecord
) AS a
GROUP BY uid,cnt;

#第三步
#取得最大连续值
#采用类似部门最高薪的方法 select max() group by 
SELECT uid, MAX(cnt) FROM
(
SELECT uid,count(*) AS cnt FROM
(
SELECT uid,(DAY(loadtime)-row_number() over(PARTITION BY uid ORDER BY uid) ) AS cnt 
FROM loadrecord
) AS a
GROUP BY uid,cnt
) AS b
GROUP BY uid;

Tips1 @和:=
mysql中变量不用事前申明,在用的时候直接用“@变量名”使用就可以了。
第一种用法:set @num=1; 或set @num:=1; //这里要使用变量来保存数据,直接使用@num变量
第二种用法:select @num:=1; 或 select @num:=字段名 from 表名 where ……
注意上面两种赋值符号,使用set时可以用“=”或“:=”,但是使用select时必须用“:=赋值”

Day()用法: 将日期中的Day提取出来,比如Day(2017/01/05) = 5

练习2 选出每个科目成绩排名前三的学生

快手数据部门的面试题~
主要因该是考察row_number

  • 环境:
    MAC
    MySQL8.0.13
    Sequel Pro

  • 创建数据

#创建表
CREATE TABLE IF NOT EXISTS `dataSubject` (
  `id` int(6) unsigned NOT NULL,
  `name` varchar(200) NOT NULL,
  `subject` varchar(200) NOT NULL,
  `score` varchar(200) NOT NULL,
  PRIMARY KEY (`id`)
) DEFAULT CHARSET=utf8;

#插入数据
INSERT INTO dataSubject VALUES (1,'小黄','数学',99), (2,'小黄','语文',89),(3,'小黄','英语',79), (4,'小黄','物理',99), (5,'小黄','化学',98), (6,'小红','数学',89), (7,'小红','语文',99), (8,'小红','英语',79), (9,'小红','物理',89), (10,'小红','化学',69),(11,'小绿','数学',89), (12,'小绿','语文',91), (13,'小绿','英语',92),(14,'小绿','物理',93), (15,'小绿','化学',94), (16,'小黄','数学',100), (17,'小黄','语文',100),(18,'小黄','英语',100), (19,'小黄','物理',60), (20,'小黄','化学',66);
select看一下
ROW_NUMBER用一下

本来MySQL 8.0引入row_number很好的
但是为什么我用的时候,分数是两位数排序没问题
分数是100分的时候,排序竟然会排到后面去了,好奇怪
求各位大神解答~

#row_number  无视相同值
SELECT * FROM(
SELECT *,row_number() over(partition by subject order by score desc) AS 'rank' FROM datasubject) AS t 
WHERE t.rank < 4;

#rank() 遇到相同值跳跃式排名
SELECT * FROM(
SELECT *,rank() over(partition by subject order by score desc) AS 'rank' FROM datasubject) AS t 
WHERE t.rank < 4;

#dense_rank() 遇到相同值连续式排名
SELECT * FROM(
SELECT *,dense_rank() over(partition by subject order by score desc) AS 'rank' FROM datasubject) AS t 
WHERE t.rank < 4;

找到原因了
之前创建表的时候score字段用的是char类型,所以MySQL把两位数作作为一个字符类别,把三位数作为一个字符类别,所以看上去两位数能排序,但是三位数却不对。
修改方法:建表语句中吧score的类型改为decimal(10)就好啦~

练习3 各部门员工薪水排名

再放一个练习row_number 的例子

create table employee (empid int ,deptid int ,salary decimal(10,2));
insert into employee values(1,10,5500.00);
insert into employee values(2,10,4500.00);
insert into employee values(3,20,1900.00);
insert into employee values(4,20,4800.00);
insert into employee values(5,40,6500.00);
insert into employee values(6,40,14500.00);
insert into employee values(7,40,44500.00);
insert into employee values(8,50,6500.00);
insert into employee values(9,50,7500.00);

select * from employee;

select *,row_number() over(partition by deptid order by salary desc) as 'rank_rownumber' from `employee`;
按部门薪水排名

这个例子中数值的建表语句是正确的,所以薪水的顺序没问题~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容

  • 观其大纲 page 01 基础知识 1 MySQL数据库概要 2 简单MySQL环境 3 数据的存储和获取 4 M...
    周少言阅读 3,155评论 0 33
  • MYSQL 基础知识 1 MySQL数据库概要 2 简单MySQL环境 3 数据的存储和获取 4 MySQL基本操...
    Kingtester阅读 7,790评论 5 116
  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 9,448评论 0 13
  • 追求利益至上的时代信条需要人们时刻保持冲刺的心态去迎接变革,争分夺秒的意识如今也体现在人类的方方面面。现在的人喜...
    小太爷烦啦阅读 304评论 0 8
  • 今天圣诞节和朋友一起去逛了两个博物馆,一个是梵高博物馆,另一个是荷兰的国立博物馆。两个博物馆都挺大的,我今天还没有...
    钤鱼摆摆阅读 150评论 1 1