登录注册写文章

大数据论文学习《Dremel》

阿猫阿狗Hakuna

大数据论文学习《Dremel》

--- 极客时间《大数据经典论文解读》学习

Dremel相比于MapReduce，其数据检索速度快了一个数量级。它的核心思路是以下四条：

让计算节点和存储节点放在同一台Server上；
进程常驻，做好缓存，确保不会用大量时间做冷启动；
树状架构，多层聚合，这样可以让单个节点响应时间和计算量都较小，能够快速拿到返回结果。
即使不适用GFS，数据也会复制三份存放到不同节点。计算过程中，Dremel会监测各叶子Server的执行进度，对于落后的计算节点，会调度到其他计算节点。（MR 推测执行）

5D947EF6-E928-4337-B7C9-744F5B75C0D9.jpg

中间层服务器最主要的功能是帮我们把数据归并的工作并行化了。

Dremel借鉴了MPP数据库，把计算和存储节点放在一起；
通过行列混合方式，完成了数据的并行运算，缩减了需要扫描的数据量；
通过借鉴搜索引擎的分布式索引系统，搭建了一个树形多层的服务器架构，通过中间层服务器进行数据聚合，减少计算延时；
同时，借鉴了MapReduce的推测执行机制，抛弃掉队者节点的任务。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

🔝一共81个，开源大数据处理工具汇总（上） | 36大数据
//一共81个，开源大数据处理工具汇总（上） | 36大数据http://www.36dsj.com/archiv...
葡萄喃喃呓语阅读 3,093评论 0赞 15
史上最全，100+大数据开源处理工具汇总
http://geek.csdn.net/news/detail/210469http://www.36dsj.c...
Albert陈凯阅读 5,686评论 1赞 21

一共81个，开源大数据处理工具汇总（上）
本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类，并且附上了官网和部分下载链接，希望能给做大数...
零一间阅读 1,546评论 0赞 7
[转]开源大数据处理工具汇总
查询引擎一、Phoenix 贡献者：：Salesforce 简介：这是一个Java中间层，可以让开发者在Apac...
秋天的程序员阅读 1,263评论 0赞 4
第一：为什么学习大数据，第二：大数据学习资源详细解读
第一：为什么要学习大数据大数据时代，中国IT环境也将面临重新洗牌，不仅仅是企业，更是程序员们转型可遇而不可求的机...
yoku酱阅读 481评论 0赞 1

友情链接更多精彩内容

赞1赞

赞赏

手机看全文