登录注册写文章

spark连接Hive

spark连接Hive

作者是通过metastore方式实现spark连接hive数据库，所以首先启动metastore:

hive --service metastore

另外需要将core-site.xml、hdfs-site.xml、hive-site.xml三个文件复制到的spark/conf文件夹下。

image.png

hive-site.cml中要包含metastore的地址：

image.png

spark代码:

# -*- coding: utf-8 -*-
from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName('spark read hive')\
    .master('local')\
    .enableHiveSupport()\
    .getOrCreate()

hive_data = spark.sql("show databases")
hive_data.show()
# 读数据库
read_data = spark.sql("select * from database.table limit 10")
read_data.show()

# 写数据库 append:追加模式；overwrite:清空表重写
read_data.write.format("hive").mode("append").saveAsTable('database.table2')

本篇spark连接的是本机hive，若是远程连接参考spark远程读写hive数据库

最后编辑于：2020.12.05 09:54:33

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

spark连接hive，使用sparksql处理hive中的数据
spark连接到hive首先要先配置3个文件，放到idea的resource目录下，如下：core-site.xm...
会飞的蜗牛66666阅读 5,276评论 0赞 1
本地spark连接hive相关问题总结
1、在win下去连接hive首先需要下载spark，下载地址：http://mirror.bit.edu.cn/a...
小豆侠阅读 2,115评论 0赞 1
Hive平滑过渡到Spark Sql
Hive概述 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供...
董二弯阅读 9,207评论 0赞 10
Hive with Spark 实战
前言由于我司的系统已存在稳定的Hive on Hadoop集群以及Spark集群，随着业务发展，需要打通这两者，...
VIPSHOP_FCS阅读 8,118评论 0赞 3
家长会谈合作
久违的晴天，家长会。家长大会开好到教室时，离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。放学铃声...
飘雪儿5阅读 7,571评论 16赞 22

1赞2赞

赞赏

手机看全文