在大数据系统中,如何将结构化数据与半结构化、非结构化数据之间进行转换,是大数据知识发现的前提和关键。这种转换的目标是为了支持大数据的(交叉工业应用
)。
横向扩容指当数据量/负载增大时,通过增加更多的机器资源来维持性能,是线性可扩展的一种实现方式。
在大数据环境下,管理决策面临着 “数据异构性” 和 “决策异构性” 两个问题。传统的管理决策模式依赖于数据分析和业务知识的积累。
数据系统的组成部分是数据和查询,其中 When 指的是数据与时间相关,What 指的是数据本身。关于 What 的特性,正确的选项是( 数据的本身是不可变的
)。
What 指的是数据本身,由于数据跟某个时间点相关,所以数据是不可变的(Immutable),过往的数据已经成为事实(Fact),你不可能回到过去的某个时间点去改变数据事实。
在分布式系统中,数据可能产生于不同的系统中,时间决定了数据发生的全局先后顺序,这一点对于确保数据操作的正确性尤其重要。
Lambda 架构需要开发并维护两套系统,一套负责批处理计算,另一套负责流处理计算,这样的开发维护成本相对较高。
Kappa 架构在设计上使用消息队列对数据进行缓存,其历史数据处理能力相对较弱,处理大量历史数据时可能会对消息中间件性能产生很大压力。
Lambda 架构将批处理层和速度层分为两层,分别进行离线数据处理和实时数据处理,以便在不同的技术条件下处理不同类型的数据。
如果项目中需要频繁地对算法模型参数进行修改,Kappa 架构只需要维护一套系统,开发维护相对较简单方便。
Kappa 不是 Lambda 的替代架构,而是其简化版本,Kappa 放弃了对批处理的支持,更擅长业务本身为增量数据写入场景的分析需求。
Kappa 方案通过精简链路解决了数据写入和计算逻辑复杂的问题,但依然没有解决存储和展示的问题。