登录注册写文章

spark DaraFrame转换成pandas DataFrame

spark DaraFrame转换成pandas DataFrame

方法一单机版

pd = spark_df.toPandas()

方法二分布式

import pandas  as pd

def _map_to_pandas(rdds):
  return [pd.DataFrame(list(rdds))]

def topands_df(df,n_partitions = None):
  if n_partitions is not None:
    df = df.repartition(n_partitions)
  df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
  df_pand = pd.concat(df_pand)
  df_pand.columns = df.columns
  return df_pand

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient D...
Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: R...
Joyyx阅读 5,831评论 0赞 5
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient D...
Spark RDD（Resilient Distributed Datasets）论文概要 1: 介绍 2: R...
草里有只羊阅读 5,136评论 2赞 7

黑猴子的家：kvm磁盘扩展-直接扩展qcow2磁盘
直接扩展qcow2磁盘 1、查看磁盘信息 2 、直接扩展磁盘 3、直接指定修改后的磁盘空间容量 4、查看磁盘信息，...
黑猴子的家阅读 5,117评论 0赞 7
CSS伪类、伪元素、继承、层叠
伪类 :first-child :last-child :nth-child(n) 1.:first-child ...
叁度阅读 4,650评论 0赞 0
领导语录
宁可疼死，也不能吓死
1232dd44f55c阅读 1,677评论 0赞 1

赞1赞

赞赏

手机看全文