Spark编程讲解

  1. Spark严重依赖传递函数类型的参数,即 在spark中,transformation 和 action接收的参数绝大部分都是函数类型
    两种建议的使用用法:
    1. 一种是匿名函数,适用于小片段的代码。
    2. 传递object对象中的静态方法
    不建议的做法:
    使用普通类的方法,必须将此类的实例一起传进去,此普通类必须继承java.io.Serializable.即普通类必须有序列化的能力。

  2. RDD是弹性分布式数据集,实际计算是分布在各个节点上,但是RDD的计算过程都是在Driver程序中定义的。当代码从Driver中分发至各计算节点有一个过程,可以认为为4步:

    1. 在Driver节点序列化代码
    2. 传送至各计算节点
    3. 在计算节点反序列化
    4. 执行execute
  3. 在Spark中,每个Job的执行,都会经历序列化、网络传输、反序列化和运行的过程。Spark会将Job运行所以来的变量、方法(称为闭包)全部打包在一起序列化,相当于他们的一份副本。

  4. 理解以键值对为参数的操作
    <key, value> 运算PairRDDFunction类,自动处理RDD元组。

  5. Transformation操作
    Transformation操作都是接收一个RDD作为输入,返回一个新的RDD。
    map(func) 对源RDD中的每个元素调用func,生成新的元素,这些新的元素构成新的RDD并返回。
    flatMap(func) 每个输入的RDD成员可以产生0个或者多个输出成员,所以func得返回值类型为Seq类型,但是RDD会自动将其转为单成员。
    filter(func)对RDD进行过滤
    mapPartitions(func) map中func的作用的是RDD中的每个元素,而mapPartitions中的func作用的对象是RDD中的一整个分区
    func的类型是 Iterator<T> => Iterator<U>
    mapPartitionsWithIndex9func) 与mapPartitions类似,但输入会多提供一个整数表示分区的编号,所以func得类型是(Int, Iterator<T>) => Iterator<U> 多了一个Int
    sample(withReplacement, fraction, seed) 对RDD进行抽样,withReplacement为true时表示抽样之后还放回。可以多次被抽样,false表示不放回, fraction为浮点数,表示抽样比例; seed为随机数种子,比如当前时间戳)
    union(otherDataset) 合并两个RDD,不去重, 要求两个RDD中的元素类型一致
    distinct([numberTasks]) 对原RDD进行去重操作,返回的RDD中没有重复成员
    groupByKey([numberTasks]) 对<key, value>结构的RDD进行雷士RMDB的group by聚合操作,具有相同key的RDD成员的value会被聚合在一起,返回的RDD的结构是(key, Iterable<value>)
    reduceByKey(func, [numberTasks]) 对<key, value>结构的RDD进行聚合,对具有相同key的value调用func类进行reduce操作。func的类型必须是(V,V) = V
    sortByKey([ascending], [numberTasks]) 对<key, value> 结构的RDD进行升序或降序排列
    join(otherDataset, [numberTasks]) 对<k, v> 和 <k, w> 进行 join操作,返回 (k, <V, W>)
    外连接函数为leftOuterJoin , rightOuterJoin和 fullOuterJoin

  6. Action 操作
    Transformation操作结束之后,就该Action操作上场了,输出不再是RDD,二十回送至Driver程序

    reduce(func)对RDD成员使用func进行reduce操作,func接受两个参数,合并之后只返回一个值,reduce操作的返回结果只有一个值, 需要注意的是,func会并发执行。
    collect() 将RDD读取至Driver程序,类型是Array, 一般要求RDD不能太大
    count() 返回RDD的成员变量
    first() 返回RDD的第一个成员,等价于take()
    take(n) 返回RDD前n个成员
    saveAsTextFile(path) 将RDD转换为文本内容并保存至路径path下,可能有多个文件
    saveAsSequenceFile(path) 与saveTextFIle一样,但是以sequenceFile格式保存。
    countByKey() 仅适用于(K, V)类型,对key计数,返回(K, Int)
    foreach(func) 对RDD中的每个成员执行func,没有返回值。

  7. 应用程序提交
    程序打包(package)之后,就可以提交至集群上运行,提交任务的基本形式如下:
    ./bin/spark-submit
    --class <main-class>
    --master <master-url>
    --deploy-mode <deploy-mode>
    --conf <key>=<value>
    <application-jar>
    [application-argument]

    --class 参数指定包中的 object对象。 --master参数制定Spark集群地址,它可以是下面的任何一种:
    local[N] 表示本地模式
    spark://host:port 表示Standlone模式
    yarn
    mesos://host:port
    --deploy-mode 选项用于指定运行模式,可选的值为client或cluster。分别表示Driver程序是运行在本地还是运行在集群上。
    spark-submit提交程序时,会读取配置文件conf/spark-defaults.conf作为默认配置
    --jars 选项可以用于制定额外的依赖包,集群上的所有节点都会访问这些文件。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352

推荐阅读更多精彩内容