使用Spark读写CSV格式文件

<dependency>

    <groupId>com.databricks</groupId>

    <artifactId>spark-csv_2.10</artifactId>

    <version>1.0.3</version>

</dependency>


sqlContext.read.format("com.databricks.spark.csv")

.option("inferSchema", "false")

.option("delimiter","\t")

.load(filepath1)

.toDF("xxx", "optype","xxx","xxx","xxx")


option支持的参数内容:

  1、path:看名字就知道,这个就是我们需要解析的CSV文件的路径,路径支持通配符;

  2、header:默认值是false。我们知道,CSV文件第一行一般是解释各个列的含义的名称,如果我们不需要加载这一行,我们可以将这个选项设置为true;

  3、delimiter:默认情况下,CSV是使用英文逗号分隔的,如果不是这个分隔,我们就可以设置这个选项。

  4、quote:默认情况下的引号是'"',我们可以通过设置这个选项来支持别的引号。

  5、mode:解析的模式。默认值是PERMISSIVE,支持的选项有

    (1)PERMISSIVE:尝试解析所有的行,nulls are inserted for missing tokens and extra tokens are ignored.

    (2)DROPMALFORMED:drops lines which have fewer or more tokens than expected

    (3)FAILFAST: aborts with a RuntimeException if encounters any malformed line

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容