登录注册写文章

spark save parquet in impala dir not support add columns

spark save parquet in impala dir not support add columns

1.问题：
项目中使用 spark save parquet 到 impala( impala 为分区表 ) 的目录下面，然后在 impala 中添加字段，报错.
例如：我将 spark 生成的 parquet 数据放到 impala 表 event_s_p186 相应的目录下，然后添加字段 aaa，字段顺序如下：

在这里插入图片描述

报错如下：
其中 day_id 为分区字段

在这里插入图片描述

2. 原因
impala( v3.2.0-cdh6.3.1 ) 默认的情况下是按照字段顺序读取数据的，添加了一个字段 aaa ，由于 parquet 中的数据并没有 aaa ，也没有 aaa 的占位符，它会默认把 day_id 当做 aaa.

3.解决办法：
set PARQUET_FALLBACK_SCHEMA_RESOLUTION=name;

4.参考：
Hive vs Impala Schema Loading Case: Reading Parquet Files
PARQUET_FALLBACK_SCHEMA_RESOLUTION Query Option (CDH 5.8 or higher only)

最后编辑于：2020.03.28 10:30:56

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

spark 学习笔记
Spark学习笔记 Data Source->Kafka->Spark Streaming->Parquet->S...
哎哟喂喽阅读 6,844评论 0赞 51
pySpark 中文API (2)
pyspark.sql模块模块上下文 Spark SQL和DataFrames的重要类： pyspark.sql...
mpro阅读 9,918评论 0赞 13

Spark Python API Docs(part two)
pyspark.sql module Module context Spark SQL和DataFrames中的重...
盗梦者_56f2阅读 5,675评论 0赞 19
Spark文档 - SQL编程指南
预览 Spark SQL是Spark用于结构化数据处理的模块。不同于基本的RDD API，Spark SQL AP...
sakersun阅读 1,396评论 0赞 2
impala-review
Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和H...
时待吾阅读 2,624评论 0赞 8

友情链接更多精彩内容

赞1赞

赞赏

手机看全文