大数据论文学习《Dremel》

--- 极客时间 《大数据经典论文解读》学习

Dremel相比于MapReduce,其数据检索速度快了一个数量级。它的核心思路是以下四条:

  • 让计算节点和存储节点放在同一台Server上;

  • 进程常驻,做好缓存,确保不会用大量时间做冷启动;

  • 树状架构,多层聚合,这样可以让单个节点响应时间和计算量都较小,能够快速拿到返回结果。

  • 即使不适用GFS,数据也会复制三份存放到不同节点。计算过程中,Dremel会监测各叶子Server的执行进度,对于落后的计算节点,会调度到其他计算节点。(MR 推测执行)


    5D947EF6-E928-4337-B7C9-744F5B75C0D9.jpg

    中间层服务器最主要的功能是帮我们把数据归并的工作并行化了。

    Dremel借鉴了MPP数据库,把计算和存储节点放在一起;
    通过行列混合方式,完成了数据的并行运算,缩减了需要扫描的数据量;
    通过借鉴搜索引擎的分布式索引系统,搭建了一个树形多层的服务器架构,通过中间层服务器进行数据聚合,减少计算延时;
    同时,借鉴了MapReduce的推测执行机制,抛弃掉队者节点的任务。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容