大数据平台计算层需要考虑的多种场景和对应的实现框架参考

大数据计算层是从大量的原始数据中抽取有价值的信息,即数据转换成信息的过程。主要对所输入的各种形式的数据进行加工整理,这一过程包含对数据的收集、存储、加工、分类、归并、计算、排序、转换、检索和传播的演变与推导。大数据计算层包括两大基本因素:数据处理和数据管理。如下图所示:

大数据平台计算层

数据处理是指对数据进行收集整理、组织、存储、维护、检索、传送等操作,该部分也是后续进行数据管理时的必要部分。数据处理涉及的计算比较简单,需要根据业务的需求来编写应用程序加以解决,加工计算会根据具体的业务来定制。而数据管理则比较复杂,是针对数据的爆炸性增长和多种复杂类型进行统一处理。

以下是大数据平台计算层需要考虑的多种场景和对应的实现框架参考。

全量数据的离线批处理计算,计算数据流巨大,响应时间在分钟级,这种业务场景称之为离线批处理计算。实现框架一般采用MapReduce、Hive。

少量数据的交互式查询场景,响应时间在秒级。这种业务场景称之为近实时交互查询。实现框架一般采用Impala。

少量数据的实时查询处理,响应时间在毫秒级。这种业务场景称之为实时处理计算。实现框架一般采用Spark、HBase。

少量数据的逐条或者时间窗口批处理,响应时间在毫秒级。这种业务场景称之为流式处理计算。实现框架一般采用Storm、Spark Streaming。

全量数据的全文检索查询,响应时间在毫秒级。这种业务场景称之为全文检索查询。实现框架一般采用Solr、ElasticSearch、Lucene。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 转 # https://www.cnblogs.com/easypass/archive/2010/12/ 08/...
    吕品㗊阅读 13,316评论 0 44
  • 今天看到一位朋友写的mysql笔记总结,觉得写的很详细很用心,这里转载一下,供大家参考下,也希望大家能关注他原文地...
    信仰与初衷阅读 10,174评论 0 30
  • 云安全联盟大数据工作组发布 译者:李毅 中国惠普大学资深培训专家 ** 摘要 **在本文中,我们提出了一个大数据...
    Leo_Liyi阅读 11,472评论 0 22
  • 一、大数据中的数据仓库和Mpp数据库如何选型? 在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,...
    yoku酱阅读 4,342评论 0 2
  • 江山想着这两天天气挺好,不如带苏如卿出去走走,也换换心情。虽然如老爷严令下人们不准议论芸锦园的事,但还是有人偷偷谈...
    骨草小白阅读 1,481评论 0 0

友情链接更多精彩内容