主流的大数据OLAP计算引擎:
- Spark、Presto、Druid、Kylin、Hive
- Impla、Clickhouse
MPP类:
Presto、Impala类,利用Hive Metastore,直接读取Parquet/ORC等格式文件。share-nothing架构
计算执行:
火山模型
向量化执行、
动态代码生成(codegen):
Optimizer优化器:
优化器分为Rule-Based Optimizer (RBO) 和Cost-Based Optimizer (CBO) 两类。
Filter 下推、列式存储等
谓词下推(predicate pushdown)
常量累加(constant folding)
列值裁剪(column pruning)
Limits合并(combine limits)