题目链接:https://leetcode-cn.com/problems/delete-duplicate-emails/
刚看到这道题目有点懵,不知道怎么入手,可能本人对sql的设计能力需要提高吧,下面看题。
本题的基础是针对单张表进行操作的。因此想要一条sql删除重复邮箱的数据记录其实有点难度。
我刚开始尝试写了几次发现不太对,需要考虑一些细节和mysql的临时表。
答案1:delete from Person where Id not in(select a.Id from (select min(Id) as Id from Person group by email ) as a);
分析:1.表中的email字段是有重复的,那如何获取去重后的最小的id数据呢,
第一步先筛选出表中不重复且id最小的数据。
select min(Id) as Id from Person group by email.
这条sql应用了mysql的函数min(),通过group by分组后取得每组数据中的最小id.
第二步将查出来的数据使用临时表返回
(select a.Id from (select min(Id) as Id from Person group by email ) as a
第三步根据题意将不是最小id的数据行删掉,此时剩余行记录就是不重复的,且满足题意的数据了。
这里可以引申一点就是针对单表操作的话我们可以有很多种情况,后续可以单独拿出来作为一篇博文。
其他答案:
delete from Person where Id in (select a.Id from(SELECT p1.Id
FROM Person p1,
Person p2
WHERE
p1.Email = p2.Email AND p1.Id > p2.Id) as a);
这个答案猛一看其实不太能看懂因为采用自关联查询的原因,上面这个答案其实也能过,分析过程跟第一个答案类似,也是采用了临时表,但是第一步就不太一样。
第一步使用了自查询将重复邮箱的记录查出来并找到重复记录的最大id,这样的话使用临时表包装一下就可以查到重复的最大id,然后删掉就行了。
当然还有其他sql,只要能跑过用例然后再优化也行。
重点在于:
1.题目中需要有多个操作完成目标
2.题目中要求1条sql
3.可选思路有in /not in子查询,自关联查询。
4.针对一张表的复杂业务操作可以用一条sql完成。(不建议在程序中也这么用除非数据量相对较少,并发也较小的情况下,不然代码不太好维护)