[译]Hive学习指南(一)

Hive是什么

Hive是基于Apache Hadoop的数据仓库。Hadoop提供了在商用硬件上存储和处理大量数据的能力,并且具有容错机制。

Hive能够让大数据的汇总,即时查询和分析变得更加简单。Hive提供了SQL,用户可以很方便地进行即时查询,数据汇总和分析。同时,Hive的SQL给用户提供了很多空间去集成定制的分析功能,如User Defined Functions (UDFs)。

Hive不是什么

Hive不适合用于在线事务处理。Hive最适合用于传统的数据仓库任务。

入门

安装Hive,HiveServer2和Beeline的详细介绍,请参见GettingStarted

Books about Hive罗列了一些Hive入门的书籍。

数据单元

按照粒度的顺序,Hive数据组织如下:

  • Databases:起到命名空间的作用,用于避免表,视图,分区和列等发生命名冲突。数据库也用于对用户或用户组实行安全性控制。
  • Tables:拥有相同模式的数据单元。如page_views表,每一行都包含了下面的列(模式):
    • timestamp—INT类型,对应于浏览页面的UNIX时间戳。
    • userid—BIGINT类型,浏览页面的用户标识。
    • page_url—STRING类型,页面的url。
    • referer_url— STRING类型,用户从哪个页面访问到当前页面。
    • IP—STRING类型,访问页面的IP地址。
  • Partitions:每个表都可以有一个或多个partition keys,用于确定数据如何存储。除了存储单元之外,分区还允许用户有效地识别满足特定标准的行;例如,STRING类型的date_partition和country_partition。partition keys的每个唯一值都定义了表的一个分区。例如,所有从"2009-12-23"开始的"US"数据就是page_views表的一个分区。因此,如果只想分析"2009-12-23"的"US"数据,可以只对表的相关分区进行查询,从而大大加快分析的速度。需要注意的是,命名为"2009-12-23"并不代表它包含了从该日期起的所有数据或者只有该日期的数据;为了方便,分区用日期命名;保证分区名称和数据内容之间的关系是用户的工作!分区列是虚拟列,它们并不是数据本身的一部分,但是会在加载时派生出来。
  • Buckets(or Clusters):每个分区的数据可能会根据表中某些列的哈希值依次划分到Buckets中。例如,page_views表可能会用userid划分bucket,userid是page_views表的一列,不是分区列。Buckets可用于有效地抽样数据。

表不是必须进行分区或分桶,但是这些抽象可以使让系统在处理查询时修剪掉大量数据,从而更快地执行查询。

类型系统

Hive支持基本数据类型和复杂数据类型,如下所述。查看Hive Data Types可以得到更多信息。

基本类型

类型与表中的列相关联,下面是Hive支持的基本类型:

  • 整数
    • TINYINT—1字节整数
    • SMALLINT—2字节整数
    • INT—4字节整数
    • BIGINT—8字节整数
  • 布尔值
    • BOOLEAN— TRUE/FALSE
  • 浮点数
    • FLOAT— 单精度浮点数
    • DOUBLE— 双精度浮点数
  • 定点数
    • DECIMAL— 用户定义的定点值
  • 字符串
    • STRING— 特定字符集的字符序列
    • VARCHAR— 特定字符集的字符序列,可设置最大长度
    • CHAR— 特定字符集的字符序列,可设置固定长度
  • 日期和时间
    • TIMESTAMP— 特定时间点,可达到纳秒精度
    • DATE— 日期
  • 二进制
    • BINARY— 字节序列

复杂类型

复杂类型可以从基本类型和其它组合类型构建:

  • Structs:其中的元素使用(.)来访问。如,STRUCT {a INT; b INT}类型的列c,使用c.a访问其中的字段。
  • Maps(key-value元组):其中的元素使用 ['element name']来访问。如,M是包含了'group' -> gid的映射,gid的值用M['group']访问。
  • Arrays(带索引的列表):其中的元素都是相同类型的。使用[n]访问元素,n是从0开始的数组索引。如,数组A为['a', 'b', 'c'],A1就是'b'。

使用基本类型和结构体来创建复杂类型,任意层级嵌套的类型都可以创建。如,User类型可能包含下面的字段:

  • gender—字符串
  • active—布尔值

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容