「大数据」04大数据框架:Lambda Architecture(LA)

1.LA框架的提出

    最早由Twitter工程师Nathan Marz提出来,它是一种大数据软件设计架构,其目的是指导用户充分利用批处理和流式计算技术各自的优点,在延迟、吞吐量和容错之间找到平衡点,实现一个复杂的大数据处理系统。

2.主要思想

LA的主要思想是将数据处理流程分解成三层:批处理层、流式处理层和服务层。

LA框架的主要思想

(1)批处理层。它的主要思想是利用分布式批处理计算,以批为单位处理数据,并产生一个经预计算产生的只读数据视图。该层将数据流看成只读的、仅支持追加操作的超大数据集。它可以一次性处理大量数据,引入复杂的计算逻辑(比如机器学习中的模型迭代计算,历史库的匹配等),其优点是吞吐率高,缺点是数据处理延迟高,即从数据产生到最终被处理完成,整个过程用时较长,通常是分钟或小时级别。

(2)流式处理层。为了降低批处理层带来的高延迟,LA又引入了流式处理层,该层采用流式计算技术,大大降低了数据处理延迟(通常是毫秒或秒级别),其优点是数据处理延迟低,缺点是无法进行复杂的逻辑计算,得到的结果往往是近似解。

(3)服务层。批处理层和流式处理层可以结合在一起,这样既保证数据延迟低,也能完成复杂的逻辑计算(只能保证最终一致性)。为了整合两层的计算结果,LA进一步引入服务层,它对外提供了统一的访问接口以方便用户使用。


文章内容整理于:董西成《大数据技术体系详解:原理、架构与实践》

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • PayPal高级工程总监:读完这100篇论文 就能成大数据高手-CSDN.NET http://www.csdn...
    葡萄喃喃呓语阅读 2,018评论 0 23
  • 云安全联盟大数据工作组发布 译者:李毅 中国惠普大学资深培训专家 ** 摘要 **在本文中,我们提出了一个大数据...
    Leo_Liyi阅读 6,363评论 0 22
  • 出处:CSDN 开源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据技术变革之路上,开源在...
    浮浮尘尘阅读 967评论 0 4
  • 在大数据时代,流式计算越来越发挥着巨大的商业价值:业务分析人员能够更及时洞察数据,辅助做出更有效的决策;在万物互联...
    data之道阅读 2,490评论 0 6
  • 果断地 做出一个 并不完美的决定 深思熟虑 追求做出 完美的决定 哪一个更好 有些人、有些事、 有些时候、有些场合...
    东湖书生阅读 172评论 0 11