1.LA框架的提出
最早由Twitter工程师Nathan Marz提出来,它是一种大数据软件设计架构,其目的是指导用户充分利用批处理和流式计算技术各自的优点,在延迟、吞吐量和容错之间找到平衡点,实现一个复杂的大数据处理系统。
2.主要思想
LA的主要思想是将数据处理流程分解成三层:批处理层、流式处理层和服务层。
(1)批处理层。它的主要思想是利用分布式批处理计算,以批为单位处理数据,并产生一个经预计算产生的只读数据视图。该层将数据流看成只读的、仅支持追加操作的超大数据集。它可以一次性处理大量数据,引入复杂的计算逻辑(比如机器学习中的模型迭代计算,历史库的匹配等),其优点是吞吐率高,缺点是数据处理延迟高,即从数据产生到最终被处理完成,整个过程用时较长,通常是分钟或小时级别。
(2)流式处理层。为了降低批处理层带来的高延迟,LA又引入了流式处理层,该层采用流式计算技术,大大降低了数据处理延迟(通常是毫秒或秒级别),其优点是数据处理延迟低,缺点是无法进行复杂的逻辑计算,得到的结果往往是近似解。
(3)服务层。批处理层和流式处理层可以结合在一起,这样既保证数据延迟低,也能完成复杂的逻辑计算(只能保证最终一致性)。为了整合两层的计算结果,LA进一步引入服务层,它对外提供了统一的访问接口以方便用户使用。
文章内容整理于:董西成《大数据技术体系详解:原理、架构与实践》