Hadoop 生态中,我们使用 Hive 将 SQL 语句编译为 MapReduce 任务,对海量数据进行操作;Druid 则是一款独立的分布式列式存储系统,通常用于执行面向最终用户的即席查询和实时分析。
Druid 的高速查询主要得益于列式存储和倒排索引,其中倒排索引是和 Hive 的主要区别。数据表中的维度字段越多,查询速度也会越快。不过 Druid 也有其不适用的场景,如无法支持大数据量的 Join 操作,对标准 SQL 的实现也十分有限。
Druid 和 Hive 的结合方式是这样的:首先使用 Hive 对数据进行预处理,生成 OLAP Cube 存入 Druid;当发生查询时,使用 Calcite 优化器进行分析,使用合适的引擎(Hive 或 Druid)执行操作。如,Druid 擅长执行维度汇总、TopN、时间序列查询,而 Hive 则能胜任 Join、子查询、UDF 等操作。