2020-03-09

package bdqn.sparkdemp.day0309

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD
import org.apache.spark.deploy.master

object WordCount extends App {
  if (args.length != 3) {
    println("需要三个参数:1、spark的集群地址,2、要读取的文件地址,3、数据存储地址")
    sys.exit(1)
  }
  val conf = new SparkConf()
    .setMaster(args(0))
    .setAppName(WordCount.getClass.getSimpleName)
  val sc = new SparkContext(conf)
  val rdd: RDD[String] = sc.textFile(args(1))

  rdd.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).saveAsTextFile(args(2))

  sc.stop()
}

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容