Hadoop系列-Spark小例子

前几天写完了MapReduce的小例子之后,今天再来学习Spark的例子代码就通透了。

MapReduce分为Map和Reduce部分,而Spark实际在上边写代码方面就简单一些,实际上就是RDD的处理了,那么RDD是啥?

Spark的核心数据模型是RDD, Spark将常用的大数据操作都转化成为RDD的子类(RDD是抽象类,具体操作由各子类实现,如MappedRDD、Shuffled RDD)。

说人话就是Spark对数据的操作都是通过RDD来进行的,例如读取文件,文件处理,统计文字个数这一系列的操作都是RDD完成。

咱们接下来看看java如何写Spark的代码的。

一、Spark例子代码

通过以下代码可以很容易的看出来,没有那么多的Map,Reduce以及输入输出的格式指定,代码逻辑简单了,但是难点是在于lambda表达式的写法,写的很容易,能读懂,但是再让我写一次,我可能还是不会写。。。以后有机会重点学习下这部分。

引入maven

<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>2.7.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.12</artifactId>
        <version>3.2.1</version>
    </dependency>
</dependencies>

主方法

package com.sparkwordcount;

import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.SparkConf;
import org.apache.spark.storage.StorageLevel;
import scala.Tuple2;

import java.util.Arrays;

public class SparkMain {
    public static void main(String[] args) throws Exception {
        // 设定appName(为本脚本取个名字)
        String appName = "testSpark";
        // 设定spark master(默认支持local)
        String master = "local";
        // 处理的源文件,输出的结果,这个文件是咱们前几天在MapReduce中的文件
        String filePath = "/test/input/testFile.txt";
        String outputPath = "/test/output/testSpartResult";
        // 初始化Spark环境,为后边运行读取环境配置
        SparkConf conf = new SparkConf().setAppName(appName).setMaster(master);
        JavaSparkContext sc = new JavaSparkContext(conf);
        // 读取文件并处理
        JavaRDD<String> lines = sc.textFile(filePath);
        // 将每一行通过空格截取成新的RDD
        JavaRDD<String> words = lines.flatMap(s -> Arrays.asList(s.split(" ")).iterator());
        // 将所有的文字组成键值对,并对不同的key进行计数
        JavaPairRDD<String, Integer> pairs = words.mapToPair(s -> new Tuple2(s, 1));
        JavaPairRDD<String, Integer> counts = pairs.reduceByKey((a, b) -> a + b);
        // 循环输出每一个字的出现次数
        counts.foreach(s -> System.out.println(s._1()+","+s._2()));
        // 持久化到内存和硬盘中,能够为后期新的程序方便读取
        counts.persist(StorageLevel.MEMORY_AND_DISK());
        // 输出成文本到指定目录
        counts.saveAsTextFile(outputPath);
    }
}

二、打包

设定Artifacts打包

v2-8b90aee391d1ae8efd69c21e8a145b1f_720w.jpg

执行Build Artifaces打包

v2-6cf90796f5e8744cc18eed083113ffc9_720w.jpg

会在指定目录生成jar包SparkWordCount.jar

三、上传到docker并运行

#复制文件到docker中
docker cp /Users/XuesongBu/Documents/git_code/SparkWordCount/out/artifacts/SparkWordCount_jar/SparkWordCount.jar master:/usr/local
#进入docker
docker exec -it master bash
#进入Spark目录
cd /usr/local/spark-3.0.3-bin-hadoop2.7
#提交到Spark执行
./bin/spark-submit \
  --class com.sparkwordcount.SparkMain \
  --master local \
  ../SparkWordCount.jar \
  100
#输出,其实还有别的很多数据,咱们忽视吧,太多了
tFile,1
Hello,1
dd,2
ddd,1
242343,1
123,1
tes,1
sdfs,1
43252,1
world,1
df,2
3434s,1
dfdsf,1
#通过hadoop查看文件命令查看本次执行的输出的文件结果
hadoop fs -cat /test/output/testSpartResult/*
(tFile,1)
(Hello,1)
(dd,2)
(ddd,1)
(242343,1)
(123,1)
(tes,1)
(sdfs,1)
(43252,1)
(world,1)
(df,2)
(3434s,1)
(dfdsf,1)

四、总结

这就是一个简单的Spark的小例子,这只是个入门,其实更复杂的是针对大数据统计的算法,我写出来的一切实际都是CRUD,都是利用工具进行的简单的操作,算法才是最重要的。

大家有什么不懂得可以在评论回复我,我来给大家详细解答。

谢各位的阅读,谢谢您动动手指点赞,万分感谢各位。另外以下是我之前写过的文章,感兴趣的可以点进去继续阅读。

历史文章

Hadoop系列-入门安装
Hadoop系列-HDFS命令
Hadoop系列-Hive安装
Hadoop系列-Hive数据库常见SQL命令
Hadoop系列-HBase数据库
Hadoop系列-HBase数据库(二)
Hadoop系列-HBase数据库JAVA篇
Hadoop系列-Spark安装以及HelloWorld
Hadoop系列-MapReduce小例子
Hadoop系列-Spark小例子
JAVA面试汇总(五)数据库(一)
JAVA面试汇总(五)数据库(二)
JAVA面试汇总(五)数据库(三)
JAVA面试汇总(四)JVM(一)
JAVA面试汇总(四)JVM(二)
JAVA面试汇总(四)JVM(三)
JAVA面试汇总(三)集合(一)
JAVA面试汇总(三)集合(二)
JAVA面试汇总(三)集合(三)
JAVA面试汇总(三)集合(四)
JAVA面试汇总(二)多线程(一)
JAVA面试汇总(二)多线程(二)
JAVA面试汇总(二)多线程(三)
JAVA面试汇总(二)多线程(四)
JAVA面试汇总(二)多线程(五)
JAVA面试汇总(二)多线程(六)
JAVA面试汇总(二)多线程(七)
JAVA面试汇总(一)Java基础知识

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,104评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,816评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,697评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,836评论 1 298
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,851评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,441评论 1 310
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,992评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,899评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,457评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,529评论 3 341
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,664评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,346评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,025评论 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,511评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,611评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,081评论 3 377
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,675评论 2 359