登录注册写文章

无标题文章

无标题文章

Hive 学习笔记

Hive 简介

Hive 是建立在 Hadoop 上的数据仓库基础构架，可以用来进行数据提取转化加载。

Hive 架构

用户接口：CLI, Client, WUI
通常存储在 mysql
解释器、编译器、优化器、执行器
Hadoop：用 HDFS 进行存储，用 MapReduce 进行计算

Hive 特点

不支持对数据的改写和添加
不会对数据中的某些 key 建立索引，需要扫描整张表
数据规模大到超过数据库的处理能力的时候，Hive 的并行计算能体现出优势

可以调用 python

CREATETABLE u_data_new (
userid INT,
movieid INT,
rating INT,
weekday INT)
ROWFORMAT DELIMITED
FIELDSTERMINATED BY ‘\t’;
add FILEweekday_mapper.py;
INSERTOVERWRITE TABLE u_data_new

join 时，每次map/reduce 任务的逻辑

reducer 会缓存 join 序列中除了最后一个表的所有表的记录，再通过最后一个表将结果序列化到文件系统。这一实现有助于在 reduce 端减少内存的使用量。实践中，应该把最大的那个表写在最后（否则会因为缓存浪费大量内存）

最后编辑于：2017.12.03 07:56:09

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊阅读 18,423评论 0赞 85
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
Joyyx阅读 8,366评论 0赞 16
史上最全，100+大数据开源处理工具汇总
http://geek.csdn.net/news/detail/210469http://www.36dsj.c...
Albert陈凯阅读 5,453评论 1赞 21
5. Hadoop之旅——Hive使用篇
github链接针对Hive的优化主要有以下几个方面： map reduce file format shuff...
zoyanhui阅读 6,266评论 2赞 33
无标题文章
转至元数据结尾创建：董潇伟，最新修改于：十二月 23, 2016 转至元数据起始第一章:isa和Class一....
40c0490e5268阅读 1,856评论 0赞 9

1赞2赞

赞赏

手机看全文