parallelize()
函数将一个List列表转化为了一个RDD对象,
collect()
函数将这个RDD对象转化为了一个List列表。
parallelize()
函数的第二个参数表示分区,默认是1,此处为2,表示将列表对应的RDD对象分为两个区。
后面的glom()
函数就是要显示出RDD对象的分区情况,可以看出分了两个区,如果没有glom()函数,则不显示分区,如第一个结果所示。
python2
>>> import pyspark
>>> L = [1, 2, 3, 4, 5]
>>> conf = pyspark.SparkConf()
>>> sc = pyspark.SparkContext(conf=conf)
>>> old = sc.parallelize(L, 2) # 将List转化为RDD对象,RDD对象分为2个区
>>> print old.collect() # 将这个RDD对象转化为了一个List列表
[1, 2, 3, 4, 5]
>>> print old.glom().collect() # glom()用于显示出RDD对象的分区情况
[[1, 2], [3, 4, 5]]