HiveQL查询操作全解(四):COUNT的高级用法

在HIVE中,除了COUNT(*)外,COUNT还可以有很多高级用法。

SELECT
    type ,
   count(*),
   count(DISTINCT u), 
   count(CASE WHEN plat=1 THEN u ELSE NULL END), 
   count(DISTINCT CASE WHEN plat=1 THEN u ELSE NULL END) ,            
   count(CASE WHEN (type=2 OR type=6) THEN u ELSE NULL END),
   count(DISTINCT CASE WHEN (type=2 OR type=6) THEN u ELSE NULL END)
FROM
    t
WHERE
    dt in ("2012-1-12-02", "2012-1-12-03")
GROUP BY
    type
ORDER BY
    type

可以看到,count可以根据条件表达式进行过滤,但下面的用法是不对的,亲测不对:

count("plat=1")

这样的效果其实是和count(*)的效果是一样的,达不到过滤的效果。
还有一种情况是我们这样写

count(CASE WHEN plat=1 THEN u ELSE 0 END)

看上去完美无缺,但其实统计结果与count(*)仍然是一致的,因为count统计的是非NULL的数量,0也是非NULL的当然会被统计到,所以应该是NULL,或者使用sum

sum(CASE WHEN plat=1 THEN u ELSE 0 END)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容