sparkcore进行wordcount词频统计

准备一份数据/home/admin/data/helloworld.txt

hello   world   hello
hello   world   welcome
scala> val wc = sc.textFile("file:///home/admin/data/helloworld.txt")
scala> wc.flatMap(x=>x.split("\t")).map(x=>(x,1)).reduceByKey(_+_).collect()
res19: Array[(String, Int)] = Array((hello,3), (welcome,1), (world,2))

按照词频排序

scala> wc.flatMap(x=>x.split("\t")).map(x=>(x,1)).reduceByKey(_+_).sortBy(_._2,true).collect().foreach(println(_))
(welcome,1)
(world,2)
(hello,3)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Linux常用命令大全(非常全!!!)原文链接:http://www.cnblogs.com/yjd_hycf_s...
    JokerJin阅读 3,777评论 0 3
  • Linux习惯问题: 在vim编辑时,按了ctrl + s后,再按ctrl + q就可以继续执行了。ctrl + ...
    光着脚的鞋阅读 9,989评论 0 16
  • 模块间联系越多,其耦合性越强,同时表明其独立性越差( 降低耦合性,可以提高其独立性)。软件设计中通常用耦合度和内聚...
    riverstation阅读 6,283评论 0 8
  • 系统信息arch 显示机器的处理器架构(1)uname -m 显示机器的处理器架构(2)uname -r 显示正在...
    流光汐舞阅读 1,625评论 0 0
  • 系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显...
    吃嘛嘛香身体倍儿棒阅读 2,726评论 0 1

友情链接更多精彩内容