Spark编程快速入门

本教程基于Spark官网的快速入门教程改编而来,官方文档和中文翻译的传送门见最下方。(注意,实际情况可能因为版本不同等原因有所不同)

如果对本文中的一些名词感到疑惑,可以看另外一篇入门文章:五分钟大数据:Spark入门

关键字:

使用 Spark Shell 进行交互式分析


启动

Spark提供了一个学习API的简单方式,就是Spark shell——同时也是一个强大数据交互式分析工具。基于scala和python的Spark shell的启动方式如下:

Scala:./bin/spark-shell

Python:./bin/pyspark

注意,使用上面的方式登录,实现要把目录切换到Spark的安装目录下;如果已经配置好SPARK_HOME,那么也可以直接spark-shell或者pyspark启动

读取文件

Spark 的主要抽象是一个称为 Dataset 的分布式的 item 集合。Datasets 可以从 Hadoop 的 InputFormats(例如 HDFS文件)或者通过其它的 Datasets 转换来创建。

从外部读取文件

Scala:

scala>val textFile = spark.read.textFile("README.md")

Python:

>>> textFile = spark.read.text("README.md")

处理Dataset(1):统计含有“Spark”的行数

Scala版:

scala> textFile.count() //计数

scala> textFile.first() //显示第一行

scala> val linesWithSpark = textFile.filter(line => line.contains("Spark")) //过滤出所需列,transform操作返回一个新的Dataset

scala> textFile.filter(line => line.contains("Spark")).count() //链式操作transform和action,返回所有含有"Spark"的行数

Python版:

>>> textFile.count() 

>>> textFile.first()

>>> linesWithSpark = textFile.filter(textFile.value.contains("Spark"))

>>> textFile.filter(textFile.value.contains("Spark")).count()

处理Dataset(2):统计一行中的单词最大数

Scala版

scala> textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)

//方法2:

scala> import java.lang.Math

scala> textFile.map(line => line.split(" ").size).reduce((a, b) => Math.max(a, b))

Python版

>>> from pyspark.sql.functions import *

>>> textFile.select(size(split(textFile.value, "\s+")).name("numWords")).agg(max(col("numWords"))).collect()

处理Dataset(3):实现mapreduce中的wordcount

Scala版

scala> val wordCounts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count()

scala> wordCounts.collect()

Python版

>>> wordCounts = textFile.select(explode(split(textFile.value, "\s+")).as("word")).groupBy("word").count()

>>> wordCounts.collect()

处理Dataset(4):使用缓存

因为Spark是基于内存的运算,所以速度要比基于硬盘的MapReduce快很多;为了高效使用内存,Spark会将已经使用过的空间回收,但是有一些数据,我们想要重复使用,这时候我们就可以用到缓存技术,直接使用之前的计算结果。

Scala

scala> linesWithSpark.cache()

Python

>>> linesWithSpark.cache()

这里同时列出Scala和Python的实现方式,是为了大家更好的对比。需要注意的是,很多在Scala里的api,在python里都是不存在的,或者形式是完全不同的,因为python有自己的方法来处理。

独立的应用


学习完交互式探索之后,我们再来看一下独立的Spark应用如何去做。下面的demo的作用是统计一行中“a”“b”出现的次数。

代码编写

Scala版

/* SimpleApp.scala */

import org.apache.spark.sql.SparkSession

object SimpleApp {

  def main(args: Array[String]) {

    val logFile = "YOUR_SPARK_HOME/README.md" 

    val spark = SparkSession.builder.appName("Simple Application").getOrCreate() //首先需要建立与spark的连接

    val logData = spark.read.textFile(logFile).cache()

    val numAs = logData.filter(line => line.contains("a")).count()

    val numBs = logData.filter(line => line.contains("b")).count()

    println(s"Lines with a: $numAs, Lines with b: $numBs")

    spark.stop() //最后需要停止与spark的连接

  }

}

Python版

"""SimpleApp.py"""

from pyspark.sql import SparkSession

logFile = "YOUR_SPARK_HOME/README.md"  

spark = SparkSession.builder().appName(appName).master(master).getOrCreate() #建立与spark的连接

logData = spark.read.text(logFile).cache()

numAs = logData.filter(logData.value.contains('a')).count()

numBs = logData.filter(logData.value.contains('b')).count()

print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

spark.stop()  #停止与spark的连接

任务提交

完成独立程序的编程之后,接下来就要将任务提交到spark来执行,执行的方法如下:

# Scala 使用 run-example:

./bin/run-example SparkPi

# Python 使用 spark-submit:

./bin/spark-submit examples/src/main/python/pi.py


文集

Spark:理论与实践

文章

五分钟大数据:Spark入门

Spark编程快速入门

Spark难点解析:Join实现原理

可视化发现Spark数据倾斜


补充资源

官方文档:http://spark.apache.org/docs/latest/quick-start.html

官方文档中文版:http://spark.apachecn.org/docs/cn/2.2.0/quick-start.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,084评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,623评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,450评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,322评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,370评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,274评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,126评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,980评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,414评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,599评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,773评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,470评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,080评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,713评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,852评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,865评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,689评论 2 354