在HIVE中,除了COUNT(*)外,COUNT还可以有很多高级用法。
SELECT
type ,
count(*),
count(DISTINCT u),
count(CASE WHEN plat=1 THEN u ELSE NULL END),
count(DISTINCT CASE WHEN plat=1 THEN u ELSE NULL END) ,
count(CASE WHEN (type=2 OR type=6) THEN u ELSE NULL END),
count(DISTINCT CASE WHEN (type=2 OR type=6) THEN u ELSE NULL END)
FROM
t
WHERE
dt in ("2012-1-12-02", "2012-1-12-03")
GROUP BY
type
ORDER BY
type
可以看到,count可以根据条件表达式进行过滤,但下面的用法是不对的,亲测不对:
count("plat=1")
这样的效果其实是和count(*)的效果是一样的,达不到过滤的效果。
还有一种情况是我们这样写
count(CASE WHEN plat=1 THEN u ELSE 0 END)
看上去完美无缺,但其实统计结果与count(*)仍然是一致的,因为count统计的是非NULL的数量,0也是非NULL的当然会被统计到,所以应该是NULL,或者使用sum
sum(CASE WHEN plat=1 THEN u ELSE 0 END)