Spark从入门到精通9:使用Java开发Spark的WordCount程序

前面几节我们介绍过了Spark的环境搭建,有了环境我们就可以小试牛刀——动手开发自己的Spark程序了。本节先来介绍如何使用Java语言开发一个Spark的WordCount程序。

1.下载Spark安装目录下的所有Jar包

使用WinSCP工具将$SPARK_HOME/jars目录下的所有Jar包下载到本地目录如E:/sparklib中。

2.使用Eclipse搭建Spark程序开发环境

  1. 打开Eclipse工具,新建Java工程:JavaSparkWordCount
  2. 在JavaSparkWordCount工程下新建文件夹:lib
  3. 将刚才下载好的所有Jar包,复制粘贴到lib文件夹
  4. 选中lib文件夹下的所有Jar包,右键–>Build Path–>Add to Build Path

3.编写WordCount程序

  1. 在JavaSparkWordCount工程下的src文件夹新建一个Package:demo
  2. 在demo包下新建Java Class:JavaSparkWordCount,并生成main方法,Finish
  3. 编写JavaSparkWordCount.java代码如下:
package demo;
import java.util.Arrays;
import java.util.Iterator;
import java.util.List;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;
public class JavaSparkWordCount {
    public static void main(String[] args) {
        /*
        * 创建SparkContext对象需要的配置参数
        * setAppName:设置应用程序名字,会显示在网页上
        * 这里只设置了一个属性,也可以设置其他属性
        */
        SparkConf conf = new SparkConf().setAppName("JavaWordCount");

        //创建Java版的SparkContext对象:JavaSparkContext,传入配置参数
        JavaSparkContext context = new JavaSparkContext(conf);

        //根据传入的路径参数args[0]读入要处理的数据,每一行作为一个元素
        JavaRDD<String> lines = context.textFile(args[0]);

        //将所有行展平成一行,并在展平的过程中按照空格对每一行进行分词
        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public Iterator<String> call(String line) throws Exception {
                //按照空格对每一行进行分词
                return Arrays.asList(line.split(" ")).iterator();
            }
        });

        //Map操作:每个单词记一次数,即将word变为(word, 1)形式
        JavaPairRDD<String, Integer> wordOne = words.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String word) throws Exception {
                return new Tuple2<String, Integer>(word, 1);
            }
        });

        //Reduce操作:使用reduceByKey函数将相同的key的value相加
        JavaPairRDD<String, Integer> count = wordOne.reduceByKey(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer i1, Integer i2) throws Exception {
                return i1+i2;
            }
        });

        //以上算子都是Transformation,不会触发计算;使用Action算子:collect开始计算
        List<Tuple2<String, Integer>> result = count.collect();

        //将结果输出到屏幕上
        for(Tuple2<String, Integer> t:result){
            System.out.println(t._1 + "\t" + t._2);
        }

        //停止context对象
        context.stop();
    }
}

4.将编写好的JavaSparkWordCount程序打成Jar包

  1. 右键单击JavaSparkWordCount工程,选择Export
  2. 选中Java文件夹下的JAR file,Next
  3. 选择导出目的地:桌面,文件名:JavaSparkWordCount.jar,保存
  4. Next,Next
  5. Main Class:demo.JavaSparkWordCount
  6. Finish,OK

5.将打包好的Jar包上传到Spark集群

使用WinSCP工具将JavaSparkWordCount.jar上传至Spark集群:

[root@spark111 ~]# ls /root/JavaSparkWordCount.jar
/root/JavaSparkWordCount.jar

6.启动Spark集群

6.1启动HDFS

[root@spark111 ~]# cd /root/training/hadoop-2.7.3/sbin
[root@spark111 sbin]# ./start-dfs.sh
Starting namenodes on [spark111]
spark111: starting namenode, logging to /root/training/hadoop-2.7.3/logs/hadoop-root-namenode-spark111.out
localhost: starting datanode, logging to /root/training/hadoop-2.7.3/logs/hadoop-root-datanode-spark111.out
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /root/training/hadoop-2.7.3/logs/hadoop-root-secondarynamenode-spark111.out
[root@spark111 sbin]# jps
2369 NameNode
2660 SecondaryNameNode
2472 DataNode
2783 Jps

6.2启动Spark

[root@spark111 ~]# start-all.sh
starting org.apache.spark.deploy.master.Master, logging to /root/training/spark-2.1.0-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master-1-spark111.out
spark111: starting org.apache.spark.deploy.worker.Worker, logging to /root/training/spark-2.1.0-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-spark111.out
[root@spark111 ~]# jps
2369 NameNode
2660 SecondaryNameNode
2838 Master
2472 DataNode
2968 Jps

2907 Worker

7.运行JavaSparkWordCount程序

[root@spark111 ~]# cd /root/training/hadoop-2.7.3/bin/
[root@spark111 bin]# ./hdfs dfs -cat /input/data.txt
I love Beijing
I love China
Beijing is the capital of China
[root@spark111 ~]# spark-submit --master spark://spark111:7077
--class demo.JavaSparkWordCount /root/JavaSparkWordCount.jar
hdfs://spark111:9000/input/data.txt

8.查看结果

程序执行期间,在网页上可以看到我们指定的应用程序名字:JavaWordCount

image

程序执行结束后,可以在屏幕上看到输出的结果:

image

这里演示的是从HDFS上读入文件,将结果输出到屏幕上。你也可以根据需要改变输入输出的方式。

以上详细介绍了如何使用Java语言来开发一个Spark任务:WordCount程序,以此打开通往Spark编程的大门!本节的介绍就到这里,祝你玩的愉快!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,386评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,142评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,704评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,702评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,716评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,573评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,314评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,230评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,680评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,873评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,991评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,706评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,329评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,910评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,038评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,158评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,941评论 2 355

推荐阅读更多精彩内容