登录注册写文章

大数据技术原理——Hive

大数据技术原理——Hive

（1）Hive的基本介绍

**
**

1.png

（2）Hive与传统数据库的区别

Hive不支持数据的更新，，也不支持事务和索引，只能只读
不能秒级响应，只能分钟级响应；

2.png

（3）Hive在企业分析平台中的应用

Hive一般用于报表中心；
Mahout是基于hadoop的开源插件，已经实现了各种机器学习、数据挖掘算法，所以能够帮助企业快速建立业务模型支持BI（商务智能）。

3.png

（4）Hive具体操作

hive数据与关系型数据库之间的传输用sqoop开源工具。
hadoop start-dfs.sh的作用在于启动主节点的namenode，启动secondnamenode，以及各从节点的datanode进程。
man 5 passwd 表示显示passwd文件的结构，这是LINUX操作系统语言
select--from--where--group by--having--order by其中select和from是必须的，其他关键词是可选的，这六个关键词的执行顺序与sql语句的书写顺序并不是一样的，而是按照下面的顺序来执行：
from--where--group by--having--select--order by,
在写SQL文的时候，尽量把数据量大的表放在最右边来进行关联。
hadoop集群的几种运行模式：单机（本地）模式；伪分布式模式；全分布式模式（中心版）。
mysql中如何整理表数据文件的碎片：OPTIMIZE TABLE table_name。

在HDFS中,所有的文件都是以block块的概念而存在的,那么在这样海量的文件数据的情况下,难免会发生一些文件块损坏的现象,可以使用HDFS的fsck相关的命令去发现。
hive上查看hive执行计划的命令：explain

最后编辑于：2017.12.04 03:46:36

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊阅读 18,577评论 0赞 85
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
Joyyx阅读 8,513评论 0赞 16

##数据仓库中的SQL性能优化（Hive篇）
数据仓库中的SQL性能优化（Hive篇） - 简书 http://www.jianshu.com/p/808a5...
葡萄喃喃呓语阅读 4,734评论 0赞 31
[3/4]我所经历的大数据平台发展史（三）：互联网时代 • 上篇
//我所经历的大数据平台发展史（三）：互联网时代 • 上篇http://www.infoq.com/cn/arti...
葡萄喃喃呓语阅读 51,753评论 10赞 199
为什么我们到现在都没成为技术大牛呢?
很多时候,我们都很疑惑,为什么别人可以成为这个领域的技术大牛,那个领域的大虾,可以随随便便订个一个亿小目标.而我们...
左神话阅读 1,170评论 6赞 3

友情链接更多精彩内容

2赞3赞

赞赏

手机看全文