Apache Kudu 简介
目录
Apache Kudu是为Hadoop平台开发的一个列式存储管理器。Kudu共享Hadoop生态系统应用的共同技术特性:它运行在常见的硬件服务器上,水平可伸缩,支持高可用性操作。
Apache Kudu是Apache软件基金会的顶级项目。
Kudu的优势包括:
[if !supportLists]· [endif]OLAP任务的快速处理。
[if !supportLists]· [endif]与MapReduce、Spark、Flume和其他Hadoop生态系统组件集成。
[if !supportLists]· [endif]与Apache
Impala紧密集成,是HDFS(基于Apache
Parquet)很不错的替代方法。
[if !supportLists]· [endif]强大但灵活的一致性模型,允许您根据每个请求选择一致性需求,包括严格串行化的一致性选项。
[if !supportLists]· [endif]性能强大,支持运行连续和随机工作任务。
[if !supportLists]· [endif]通过Cloudera Manager轻松管理和管理。
[if !supportLists]· [endif]高可用性。平板服务器和主服务器使用了raft一致性算法,这确保了可用性,可用副本会比不可用副本数量更多。读取数据服务可以通过只读的随从平板服务器来提供,保证在牵头平板服务器宕机的情况下依然能提供读取服务。
[if !supportLists]· [endif]结构化的数据模型。
通过所有这些属性的结合,我们可以看到,Kudu的目标是,支持那些在当前可用的Hadoop存储技术上很难或不可能实现的应用程序。对这些应用程序来说,Kudu是一个可行的解决方案,它适用的应用场景包括:
[if !supportLists]· [endif]报告型应用程序,必须立即为最终用户提供最新数据。
[if !supportLists]· [endif]时间序列型应用程序,它必须支持跨大量历史数据的查询,同时返回关于单个实体的细粒度查询。
[if !supportLists]· [endif]使用预测模型进行实时决策的应用程序,根据所有历史数据定期刷新预测模型。
本文参考下列资料
https://www.cloudera.com/documentation/enterprise/latest/topics/kudu.html