<dependency>
<groupId>com.databricks</groupId>
<artifactId>spark-csv_2.10</artifactId>
<version>1.0.3</version>
</dependency>
sqlContext.read.format("com.databricks.spark.csv")
.option("inferSchema", "false")
.option("delimiter","\t")
.load(filepath1)
.toDF("xxx", "optype","xxx","xxx","xxx")
option支持的参数内容:
1、path:看名字就知道,这个就是我们需要解析的CSV文件的路径,路径支持通配符;
2、header:默认值是false。我们知道,CSV文件第一行一般是解释各个列的含义的名称,如果我们不需要加载这一行,我们可以将这个选项设置为true;
3、delimiter:默认情况下,CSV是使用英文逗号分隔的,如果不是这个分隔,我们就可以设置这个选项。
4、quote:默认情况下的引号是'"',我们可以通过设置这个选项来支持别的引号。
5、mode:解析的模式。默认值是PERMISSIVE,支持的选项有
(1)PERMISSIVE:尝试解析所有的行,nulls are inserted for missing tokens and extra tokens are ignored.
(2)DROPMALFORMED:drops lines which have fewer or more tokens than expected
(3)FAILFAST: aborts with a RuntimeException if encounters any malformed line