一、本地模式、伪分布式模式和分布式模式
本地模式:使用的是本地文件系统,在该模式下,当执行Hadoop job时(包含有大多数的Hive查询),Map task和Reduce task在同一个进程中执行。
真实的集群配置的都是分布式模式,其中所有没有完整URL指定的路径默认都是分布式文件系统(通常是HDFS)中的路径,而且由JobTracker 服务来管理job,不同的task在不同的进程中执行。
二、hive内部是什么
hive 的metastore(元数据存储)组件,元数据存储中存储了如表的模式和分区信息等元数据信息。实践中,大多数的hive客户端会使用mysql,下载java驱动,即可实现hive连接mysql
三、hive命令
(1)hive -e "sql" 可以执行sql命令
(2)hive -S -e "sql" > /a/b :可以将结果输出到指定文件中
(3)Hive中可以使用 -f文件名方式执行指定文件中的一个或者多个查询语句,一般把这些hive查询文件保存为具备.q或者.hql的文件
(4)hive shell中可以使用SOURCE命令来执行一个脚本文件
(5)执行shell命令:
不需要退出hive CLI 就可以执行,只要在命令前加上!并且以分号结尾就可以。
(6)hive打印字段名称
设置 set hive.cli.print.header = true;