登录注册写文章

mapPartitions 使用

mapPartitions 使用

Spark中的map函数是将每个rdd都进行自定义函数处理
mapPartitions则是将多个rdd进行分区，对每个分区内部的rdd进行自定义函数的处理

mapPartitions常用于需要多次加载外部文件的情况下，若此时仍然使用map函数那么对于每条记录都需要进行文件读取加载，比较费时费性能

示例

from pyspark.sql import SparkSession
from pyspark import SparkConf,SparkContext

def map_func(row):
    print ("====")
    re = row*2
    return re

def mapPartition_func(part):
    print ("====")
    for row in part:
        re = row*2
        yield re
    return re

conf = SparkConf().setAppName("test")
sc = SparkContext(conf=conf)

a = sc.parallelize([1,2,3,4,5],5)
re = a.map(map_func)
for line in re.collect():
    print (line)

re = a.mapPartitions(mapPartition_func)
for line in re.collect():
    print (line)

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊阅读 18,436评论 0赞 85
RDD:基于内存集群计算的容错抽象
该论文来自Berkeley实验室，英文标题为：Resilient Distributed Datasets: A ...
九七学姐阅读 5,808评论 0赞 3

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
Joyyx阅读 5,854评论 0赞 4
3.2 弹性分布式数据集
3.2 弹性分布式数据集本节简单介绍RDD，并介绍RDD与分布式共享内存的异同。 3.2.1 RDD简介在集群...
Albert陈凯阅读 5,458评论 0赞 0
pySpark 中文API (1)
http://spark.apache.org/docs/latest/api/python/index.html...
mpro阅读 11,294评论 0赞 4

赞1赞

赞赏

手机看全文