Spark入门-常用函数汇总

Photo by Simon Migaj from Pexels

Spark 是一个分布式的计算系统,而且函数式编程风格使在Spark上开发任务变得更有效率。

参加工作后使用Spark开发维护了四个算法,虽然算法不同但Spark代码中所用的几个函数却一样。对于新手入门Spark编程,掌握这几个函数就够了。

在介绍这几个函数之前,先介绍Spark最重要的两个概念。

1. RDD,即分布式数据集合

就相当于是把数据分成几份,分别存储在不同的机器上。很多操作是作用在数据集的单个元素上,所以可以让机器对各自拥有的数据做处理就行,这就大大加快了程序运行的时间。

2. 惰性求值

Spark操作分为两类,一是转化操作,二是行动操作。只有当出现行动操作时前面的转化操作才会被真正执行,而且不会将中间状态的数据保存在内存中。

比如有两个操作,大致表述成这样: a = 1, b = a+1, c = b+1, print(c),这里就暂时让print作为执行操作存在。若是Python,则a、b、c都会占用内存资源,但在Spark中却不是的。当计算完c后,b就会被踢出去,而print(c)之后,c也会被踢出去,这就节省了大量的资源。

当然,若是你希望保留某个中间值以避免重复计算,Spark也提供支持函数。

常用函数

最基本的二个转化操作是 map、filter。

map 的作用是获得需要的字段或对单个元素进行操作。比如RDD[(Long, Long, Long)]类型的数据-即每一条记录有三个字段,每个字段的类型是长整型。我们只需要保留第一个字段,并转化成字符串类型,那么我们可以用过 .map(x => x._1.toString)来实现。

filter 的作用是过滤掉不需要的数据。比如我们只想保留上述数据集中第一个字段为正数的数据,那可以通过.filter(x => x._1 > 0)来实现。

有时我们需要合并两份相同类型的数据集,通过a.union(b)即可完成。

接下来介绍两个强大并且常用的函数 flatMap 和 reduceByKey。

flatMap 的作用是把一份数据集拆散压扁,常常和 split 函数共同使用。比如我们现在有一份数据RDD[String],其中有些元素是以逗号分隔的字符,我们希望每一个被分隔的字符都能做为独立的数据存在。在 Spark 中我们只需要这么做:.flatMap(x => x.split(","))x.split(",")将字符转化成一个数组,这和其它语言中一样,然后 flatMap 会把数组中每一个元素拆出来。

reduceByKey 是一个聚合函数,它会对拥有相同 key 的元素进行某些操作。像RDD[(String,String)]``的数据类型,第一个字段会被当做 key。所以 ``map可以通过调整字段的顺序来指定 key。

接着上面的函数讲,拆完之后,若是想统计每个字符出现的次数,我们就可能通过 reduceByKey 来实现。使用.map(x => (x, 1)).reduceByKey((a,b) => a+b)即可完成此操作。map 的目的是让每个字符作为一个 key ,然后 reduceByKey 来计数,a、b就是每个key当前统计的数量。

由于是分布式数据集,reduceByKey 会在各个机器上对当前的数据做计数操作,然后再合并各个机器上的数据。

在现实生活中,很多数据都是以 key-value 结构存在的,而有些操作只需要对value进行即可,比如RDD[(String,String)]``中,我们只想对第二个字段做 split 操作,原先我们可以通过.map(x => (x._1, x._2.split(","))实现。但Spark提供的更简便的方式:.mapValues( x => x.split(","))```。后一种方式只对 value 做操作,而忽略 key。

同样,我们可以使用 flatMapValues 对value进行扁平化操作。

排序是始终绕不开的话题。Spark 中 可以使用 sortBy 来进行排序。比如上文中提到的类型RDD[(Long, Long, Long)],若是需要按第三个字段来降序排序,我们可以这么做: .sortBy(_._3, false)

最常见的执行操作是 .collect(),它的作用仅仅是触发执行操作用,让前面的转化操作行动起来。比如RDD[String]类型的数据集,我们可以通过.map(x => (x, 1)).reduceByKey((a,b) => a+b).collect().foreach(x => println(x._1 + "的数量:" + x._2.toString ))来打印所有的字符的数量。若是拿掉 collect() 这个操作,该语句就不会被执行。

与collect有共样作用的函数是 take,但take只用获取你需要数据的元素,比如.map(x => (x, 1)).reduceByKey((a,b) => a+b).take(5).foreach(x => println(x._1 + "的数量:" + x._2.toString ))则最多会打印五条记录。

Spark为了节省内存资源,执行操作后不会保留中间数据,这可能会带来重复计算的问题。Spakr为了解决这个问题,提供了一个函数:cache,它能帮助你保留中间数据。

结语

由于采用函数式编程,代码会变得更便捷,但这可能会让新手看得云里雾里,觉得“难”就产生了抗拒,但其实只要熟悉了上面的几个函数后,就会觉得自己怎么没早点学Spark。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351

推荐阅读更多精彩内容