学习一下MPP架构的特点,优势,常见的一些MPP架构的系统(CK、Doris、SR、Trino等)各方面对比。
一、MPP架构概述
1.1 什么是MPP架构
MPP (Massively Parallel Processing,大规模并行处理) 是一种分布式计算架构,它将大规模数据处理任务分解成多个子任务,在多个节点上并行执行,最后将结果合并。MPP架构的核心思想是"分而治之",通过并行处理来提高整体性能。
1.2 MPP架构的特点
- 无共享架构(Shared Nothing): 每个节点独立存储和处理数据
- 线性扩展性: 性能随节点数量线性增长
- 高可用性: 部分节点故障不影响整体系统运行
- 数据本地性: 计算靠近数据,减少网络传输
二、MPP架构的核心技术
2.1 数据分布策略
1、哈希分布
- 基于哈希函数将数据均匀分布到各个节点
- 优点:数据分布均匀,查询性能稳定
- 缺点:不适合范围查询