写给小白的pySpark入门

1. 创建键值对RDD ( Pair RDD)

RDD中可以包含任何类型的对象。其中,键值对是一种比较常见的RDD元素类型,在分组和聚合中经常会用到。

首先在本地创建一个word.txt,然后上传到hadoop目录中。

方法a:从文件中加载,来创建键值对RDD

pyspark --queue 队列名   [进入spark]

lines = sc.textFile("hadoop地址/word.txt") [加载文件到rdd中]

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容