登录注册写文章

kettle 将mysql 导入到hive（借助Hadoop File Output组件）

kettle 将mysql 导入到hive（借助Hadoop File Output组件）

背景

在使用kettle 的表输出组件的时候，因为服务器hive版本为0.13,不支持insert into values的语法（hive 的0.14版本才支持），所以通过表输出的方式，插入到hive会报错。
所以想了一个其他的办法，通过kettle提供的Hadoop File Output 组件将数据以数据文件的方式导入到hadoop的hdfs。然后通后通过执行sql脚本，使用hive 支持的 load data inpath into table 的方式，将hdfs的数据文件，加载到hive表中。

步骤

1.创建hive 的数据库连接

在kettle的DB连接里面新建数据库连接，连接hive。在我的上篇文章里面有关于kettle里面创建hive连接的步骤，详情请参照我的另一篇文章Data Integration (kettle) 7.0 连接Hive

2.新建hadoop cluster连接

配置kettle hadoop cluster的配置文件
从服务器hadoop etc的配置文件中下载如下4个配置文件，覆盖kettle的plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25中的4个同名文件。

image.png
新建hadoop cluster 连接
填写相应的配置，配置的hostname 和端口号根据上面4个配置文件填写，如下图：

image.png

点击测试连接，如下图：

image.png

有一部分是报些错误，不过不影响，只要Hadoop File System Connection 没报错就行。

3.转换整体流程

整个转换的流程如下：

image.png

通过表输入的方式，从mysql数据库读取表数据，然后通过Hadoop File Output将mysql数据库的数据以数据文件的方式，输出到hadoop的hdfs，然后执行SQL脚本，将数据文件加载到hive的表中。

4.Hadoop File Output组件

hadoop file output 组件配置如下：

image.png

在内容里面注意标红的几个配置，头部是否显示列名，勾选完后表示不显示列名。

image.png

5.执行sql 脚本组件

使用步骤1创建的hive连接，连接hive，然后通过如下脚本，将数据从hdfs里面导入到hive。

image.png

欢迎大家赞赏、转载、点赞、评论。

最后编辑于：2017.12.08 06:20:26

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Hadoop、HBase、Hive、Spark分布式系统架构
引用：http://www.jianshu.com/p/575b912a4781 Hadoop、HBase、Hiv...
纤尘22阅读 2,925评论 0赞 8
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
Joyyx阅读 8,516评论 0赞 16

Hadoop、HBase、Hive、Spark分布式系统架构
Hadoop、HBase、Hive、Spark分布式系统架构，本文通过全套部署方法来让大家深入系统内部以充分理解...
0o失魂鱼o0阅读 3,120评论 0赞 30
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊阅读 18,578评论 0赞 85
HDFS的使用（随时更新）
首先，我们在使用前先看看HDFS是什麽？这将有助于我们是以后的运维使用和故障排除思路的获得。 HDFS采用mast...
W_Bousquet阅读 4,483评论 0赞 2

友情链接更多精彩内容

3赞4赞

赞赏

手机看全文