rdd实现wordcount

1、rdd实现wordcount
rdd调用flatMap方法将rdd中每一个元素按空格分割并铺平,再通过map方法组成元组,最后通过reduceByKey进行词频统计,需要注意的是flatMap方法是先执行map方法在执行flat方法,代码如下:

    rdd = sc.textFile("hdfs://spark1:9000/user/root/wordcount.txt")
    rdd1 = rdd.flatMap(lambda x: x.split(" "))\
        .map(lambda x: (x, 1))\
        .reduceByKey(lambda a, b : a + b)\
        .sortBy(lambda x: x[1], ascending=False)
    print(rdd1.collect())
图1.PNG
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容