登录注册写文章

3个案例：用Spark解决Map Reduce问题！

3个案例：用Spark解决Map Reduce问题！

Spark是一个Apache项目，它被标榜为“快如闪电的集群计算”。它拥有一个繁荣的开源社区，并且是目前最活跃的Apache项目。

Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍。同时spark也让传统的mapreducejob开发变得更加简单快捷。之前我们大圣众包小编也为大家整理过Spark书单和方法，而本文将简单介绍几个经典hadoop的mr按理用spark实现，来让大家熟悉spark的开发。

最大值最小值

求最大值最小值一直是Hadoop的经典案例，我们用Spark来实现一下，借此感受一下spark中mr的思想和实现方式。话不多说直接上code

预期结果：

max:1001min:2

思路和hadoop中的mr类似，设定一个key，value为需要求最大与最小值的集合，然后再groupBykey聚合在一起处理。第二个方法就更简单，性能也更好。

平均值问题

求每个key对应的平均值是常见的案例，在spark中处理类似问题常常会用到combineByKey这个函数，详细介绍请google一下用法，下面看代码：

我们让每个partiton先求出单个partition内各个key对应的所有整数的和sum以及个数count，然后返回一个pair(sum,count)在shuffle后累加各个key对应的所有sum和count,再相除得到均值.

TopN问题

Topn问题同样也是hadoop种体现mr思想的经典案例,那么在spark中如何方便快捷的解决呢：

思路很简单，把数据groupBykey以后按key形成分组然后取每个分组最大的2个。预期结果：

以上简单介绍了一下hadoop中常见的3个案例在spark中的实现。如果读者们已经接触过或者写过一些hadoop的mapreducejob，那么会不会觉得在spark中写起来方便快捷很多呢。

原文地址：http://www.dashengzb.cn/articles/a-327.html

（更多大数据与商业智能领域干货、或电子书，可添加个人微信号（dashenghuaer))

最后编辑于：2017.12.05 00:56:26

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
Joyyx阅读 8,450评论 0赞 16
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊阅读 18,524评论 0赞 85

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
Joyyx阅读 1,955评论 0赞 4
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient D...
Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: R...
草里有只羊阅读 1,396评论 2赞 7
昨天下午的学校
江江江糖阅读 147评论 0赞 1

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文