登录注册写文章

pyspark读写csv文件

pyspark读写csv文件

读取csv文件

from pyspark import SparkContext
from pyspark.sql import SQLContext

sc = SparkContext()
sqlsc = SQLContext(sc)
df = sqlsc.read.format('csv')\
          .option('delimiter', '\t')\
          .load('/path/to/file.csv')\
          .toDF('col1', 'col2', 'col3')

写入csv文件

df.write.format('csv')\
          .option('header','true')\
          .save('/path/to/file1.csv')

option支持参数

path: csv文件的路径。支持通配符;
header: csv文件的header。默认值是false;
delimiter: 分隔符。默认值是',';
quote: 引号。默认值是"";
mode: 解析的模式。支持的选项有：
1. PERMISSIVE: nulls are inserted for missing tokens and extra tokens are ignored.
2. DROPMALFORMED: drops lines which have fewer or more tokens than expected.
3. FAILFAST: aborts with a RuntimeException if encounters any malformed line.

reference

最后编辑于：2020.01.13 20:20:16

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

pySpark 中文API (2)
pyspark.sql模块模块上下文 Spark SQL和DataFrames的重要类： pyspark.sql...
mpro阅读 13,150评论 0赞 13
Spark Python API Docs(part two)
pyspark.sql module Module context Spark SQL和DataFrames中的重...
盗梦者_56f2阅读 10,848评论 0赞 19

第06章数据加载、存储与文件格式
资料来源：https://github.com/BrambleXu/pydata-notebook 访问数据是使用...
林清猫耳阅读 8,629评论 0赞 6
《利用Python进行数据分析·第2版》第6章数据加载、存储与文件格式
第1章准备工作第2章 Python语法基础，IPython和Jupyter第3章 Python的数据结构、函数和...
SeanCheney阅读 86,207评论 56赞 160
放心的老去…
手中握着孩子粉嫩的小小的脚丫看他天真的小脸对着我咯咯地笑我知道有一天他会长大会走过丘陵跨过小河会在一个寂...
隐世闲人阅读 1,839评论 13赞 14

赞1赞

赞赏

手机看全文