第一个Spark程序 wordcount

经典就是用来重复的

步骤1：

把数据文件上传到Linux或者是上传到hdfs 上

步骤2：

加载数据文件 python

val line =sc.textFile("file:///home/data/word.txt")

scala

使用RDD 数据集对数据处理

三行代码出结果

val wordcount=lines.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey((a,b)=>a+b)

wordcount.collect()

解释一下：textFile.flatMap(line.spilt(" ")

1........会遍历textFile中的每行文本内容。当遍历一行文本内容完成时。会把文本内容赋值给变量line.

2.......执行lamda表达式line=>line.split(" ")

这个是表达式，左边表示输入参数，右边表示函数里面执行的处理逻辑，这里执行line.split(" ")，也就是针对line中的一行文本内容，采用空格作为分隔符进行单词切分，从一行文本切分得到很多个单词构成的单词集合。这样，对于textFile中的每行文本，都会使用Lamda表达式得到一个单词集合，最终，多行文本，就得到多个单词集合

3...........textFile.flatMap()操作就把这多个单词集合“拍扁”得到一个大的单词集合。

4.............然后，针对这个大的单词集合，执行map()操作，也就是map(word => (word, 1))，这个map操作会遍历这个集合中的每个单词，当遍历到其中一个单词时，就把当前这个单词赋值给变量word，并执行Lamda表达式word => (word, 1)，这个Lamda表达式的含义是，word作为函数的输入参数，然后，执行函数处理逻辑，这里会执行(word, 1)，也就是针对输入的word，构建得到一个tuple，形式为(word,1)，key是word，value是1（表示该单词出现1次）。

5..............程序执行到这里，已经得到一个RDD，这个RDD的每个元素是(key,value)形式的tuple。最后，针对这个RDD，执行reduceByKey((a, b) => a + b)操作，这个操作会把所有RDD元素按照key进行分组，然后使用给定的函数（这里就是Lamda表达式：(a, b) => a + b），对具有相同的key的多个value进行reduce操作，返回reduce后的(key,value)，比如("hadoop",1)和("hadoop",1)，具有相同的key，进行reduce以后就得到("hadoop",2)，这样就计算得到了这个单词的词频。

最后编辑于：2017.12.07 03:18:59

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

第一个Spark程序 wordcount

第一个Spark程序 wordcount

相关阅读更多精彩内容

友情链接更多精彩内容