Hive 数据仓库

1. 配置

  1. 初始化默认的 derby 数据库,作为 Hive 的元数据库(MetaStore)

    bin/schematool -dbType derby -initSchema
    

注意:初始化 Derby 作为元数据库时,会在当前 shell 路径下生成 metastore_db/ 目录。如在别处启动 Hive,而此处无 metastore_db/ 目录时,将无法启动 Hive,需要再在此路径下,重新初始化,生成该目录。

  1. 配置 MySQL 作为 Hive 的元数据库

    1. 在 conf 目录下创建 hive-site.xml,配置如下

      <?xml version="1.0" encoding="UTF-8" standalone="no"?>
      <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
      
      <configuration>
        <property>
            <name>javax.jdo.option.ConnectionURL</name>
            <value>jdbc:mysql://hm02:3306/hive?createDatabaseIfNotExist=true</value>
        </property>
        <property>
            <name>javax.jdo.option.ConnectionDriverName</name>
            <value>com.mysql.jdbc.Driver</value>
        </property>
        <property>
            <name>javax.jdo.option.ConnectionUserName</name>
            <value>root</value>
        </property>
        <property>
            <name>javax.jdo.option.ConnectionPassword</name>
            <value>123</value>
        </property>
      </configuration>
      
    2. com.mysql.jdbc.Driver 复制到 lib/ 目录下

    3. 初始化 MySQL 的 MetaStore

      bin/schematool -dbType mysql -initSchema
      

注意 MySQL 需要授权远程登录

2. 使用

  • 启动 Hive

    bin/hive
    
  • DQL

    --查看数据库
    show databases;
    
    --查看当前数据库的表信息 (Derby 默认使用 default 作为数据库)
    show tables;
    
    --查看表结构
    show create table student;
    
    --启用 MapReduce 进行查询
    select * from student order by id desc;
    select count(1) from student;
    
  • DDL

    --创建表
    create table student(id int, name string);
    
    --创建表 (指定分隔符)
    create table student(id int, name string) row format delimited fields terminated by '\t';
    
  • DML

    --Hive 独有语法,将指定路径的文件 导入至数据仓库
    ----如未指定分隔符,则导入的数据无法被解析,全部为 NULL
    load data local inpath '/opt/stu.txt' into table student;
    

3. 说明

Derby 数据库 为只能允许一个会话连接的文件数据库,因此需要修改为 MySQL 数据库,从而支持多用户会话。

MySQL 作为元数据库时的表信息:

  • TBLS
    • 表信息
  • COLUMNS_V2
    • 列信息
  • SDS
    • 存放在 HDFS 中的位置信息、输入输出格式等
  • PARTITION_*
    • 分区表

4. 进阶

1. 内部表、外部表

  • 内部表
    • 由 Hive 管理,文件保存在 HDFS 的 Hive 目录内
    • 先有表,后有数据
    • 删除表后,删除元数据和存储的数据
  • 外部表(加 external 修饰,指定 location
    • 由用户自行管理,文件需要指定保存的 HDFS 路径
    • 先有数据,后建表
    • 删除表后,仅删除元数据,存储数据不会被删除
    • 建表后,自动从指定 HDFS 导入元数据
  • 准备数据,保存到 /opt/person.txt

    1,xiaoming,book-TV-code,beijing:chaoyang
    2,lilei,book-code,nanjing:yuhua
    3,lihua,music-book,heilongjiang:haerbin
    
  • 创建内部表

    --单元格分隔:row format delimited fields terminated by ','
    --集合分隔:collection items terminated by '-'
    --Map分隔:map keys terminated by ':'
    create table person1 (
        id int,
        name string,
        hobby array<string>,
        addr map<string,string>
    )
    row format
    delimited fields terminated by ','
    collection items terminated by '-'
    map keys terminated by ':';
    
    --导入
    load data local inpath '/opt/person.txt' into table person1;
    
  • 创建外部表

    --外部表:多一个 external 修饰;需要指定 location
    create external table person2 (
        id int,
        name string,
        hobby array<string>,
        addr map<string,string>
    )
    row format
    delimited fields terminated by ','
    collection items terminated by '-'
    map keys terminated by ':'
    location '/user/person2';
    
    --导入
    load data local inpath '/opt/person.txt' into table person2;
    
  • 此时查看 Hive 元数据库的 TBLS

    • TBL_TYPE 列中,内部表为 MANAGED_TABLE ,外部表为EXTERNAL_TABLE
  • 查看详细的表信息(可以看到 HDFS 保存路径的变化)

    desc formatted person1
    

2. 分区

  • 创建内部表时,定义分区

    create table person3 (
        id int,
        name string,
        hobby array<string>,
        addr map<string,string>
    )
    partitioned by (p_dt string)
    row format
    delimited fields terminated by ','
    collection items terminated by '-'
    map keys terminated by ':';
    
  • 导入时,指定分区

    load data local inpath '/opt/person.txt' into table person3 partition(p_dt='201907');
    
  • 查看指定表的所有分区

    show partitions person3;
    
  • 添加一个分区

    alter table person3 add partition(p_dt='201908')
    
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352