先上图
from pyspark import SparkContext
if __name__ == "__main__":
master = "local"
if len(sys.argv) == 2:
master = sys.argv[1]
try:
sc.stop()
except:
pass
sc = SparkContext(master, 'test')
RDD1 =sc.parallelize( (("a", 4.0),
("e", 4.4),
("f", 4.3),
("b", 4.7),
("c", 4.9),
("d", 4.5),
))
print(RDD1.countByKey())
print(RDD1.collectAsMap())
print(RDD1.lookup("d"))
结果:
可以看到RDD1.countByKey()是对键进行计数,
RDD1.collectAsMap()是输出字典,
RDD1.lookup("d")是直接输出查找的值
defaultdict(<class 'int'>, {'f': 1, 'c': 1, 'a': 1, 'd': 1, 'b': 1, 'e': 1})
{'f': 4.3, 'c': 4.9, 'a': 4.0, 'd': 4.5, 'b': 4.7, 'e': 4.4}
[4.5]