第 19 章

在大数据系统中，如何将结构化数据与半结构化、非结构化数据之间进行转换，是大数据知识发现的前提和关键。这种转换的目标是为了支持大数据的（交叉工业应用 ）。

横向扩容指当数据量/负载增大时，通过增加更多的机器资源来维持性能，是线性可扩展的一种实现方式。

在大数据环境下，管理决策面临着 “数据异构性” 和 “决策异构性” 两个问题。传统的管理决策模式依赖于数据分析和业务知识的积累。

数据系统的组成部分是数据和查询，其中 When 指的是数据与时间相关，What 指的是数据本身。关于 What 的特性，正确的选项是（ 数据的本身是不可变的）。

What 指的是数据本身，由于数据跟某个时间点相关，所以数据是不可变的（Immutable），过往的数据已经成为事实（Fact），你不可能回到过去的某个时间点去改变数据事实。

在分布式系统中，数据可能产生于不同的系统中，时间决定了数据发生的全局先后顺序，这一点对于确保数据操作的正确性尤其重要。

Lambda 架构需要开发并维护两套系统，一套负责批处理计算，另一套负责流处理计算，这样的开发维护成本相对较高。

Kappa 架构在设计上使用消息队列对数据进行缓存，其历史数据处理能力相对较弱，处理大量历史数据时可能会对消息中间件性能产生很大压力。

Lambda 架构将批处理层和速度层分为两层，分别进行离线数据处理和实时数据处理，以便在不同的技术条件下处理不同类型的数据。

如果项目中需要频繁地对算法模型参数进行修改，Kappa 架构只需要维护一套系统，开发维护相对较简单方便。

Kappa 不是 Lambda 的替代架构，而是其简化版本，Kappa 放弃了对批处理的支持，更擅长业务本身为增量数据写入场景的分析需求。

Kappa 方案通过精简链路解决了数据写入和计算逻辑复杂的问题，但依然没有解决存储和展示的问题。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。