表变量和运算符 - Table variables and Set Operator
例子1:在同一年的NBA全明星赛中,上场时间相同的球员,一共有多少组这样的球员
select distinct B1.player_id, B2.player_id, B1.season_id
from basketball_player_allstar B1, basketball_player_allstar B2
where B1. league_id = "NBA"
and B1.minutes = B2.minutes
and B1.season_id = B2.season_id
and B1.player_id < B2.player_id
order by B1.player_id, B1.season_id
运行结果是,一共有929组
寻找pair也是经常用的query,比如,下载同样某个内容的用户,看过同样页面的用户,等等。query的关键是确立,那些variable是相同的,哪些是不相同的。
B1. X < B2. Y 是非常有用的语句。
例子2:找出所有即在ABA打过球,也在NBA打过球的人
select B1.playerID, B1.lgID, B2.lgID
from basketball_players B1, basketball_players B2
where
B1.lgID <> B2.lgID
and B1.playerID = B2.playerID
order by B1.playerID
输出结果是:
我们看到,这些结果里面有重复的,比如第一行和第四行。两个原因,一是这些人可能在ABA中带了几年,然后再NBA中也打了几年,所以有重复;第二,NBA -NBL和NBL -NBA在我们的query里面是作为两个独立的结果出现的。
想要不重复的结果非常简单, 令 B1.lgID < B2.lgID, 然后
select distinct B1.playerID, B1.lgID, B2.lgID
结果如下:
例子3:找出每一个赛季里面,得分效率最高的球员是谁?
select M.firstName, M.lastName, max( 1.0* P.points/P.minutes)
from basketball_players P , basketball_master M
where P.playerID = M.bioID
group by M.firstName, M.lastName
order by max( P.points/P.minutes) DESC
这个query是错的,因为我们要招的是每个赛季里面的,所以,最后的结果应该按照赛季显示。
select P.year, M.firstName, M.lastName, max( 1.0* P.points/P.minutes)
from basketball_players P , basketball_master M
where P.playerID = M.bioID
group by P.year
order by P.year, max( P.points/P.minutes) DESC
这个query的order by给出很奇怪的结果(如果排序里面没有max, 是一种结果,如果有,是另外一种),我也不知道为什么。 重写之后的query是这样的:
select P.year, M.firstName, M.lastName, max( 1.0* P.points/P.minutes) as eff
from basketball_players P , basketball_master M
where P.playerID = M.bioID
group by P.year
order by P.year, eff
PS: group by , order by 是非常有用的operator