Hive学习笔记(4)存储格式

Hive从两个维度对表的存储进行管理:“行格式”(row format)和“文件格式”(file format)。
行格式指行和一行中的字段如何存储。行格式的定义由SerDe定义,SerDe是“序列化和反序列化工具”(Serializer-Deserializer)的合成词。
查询时,DerDe进行反序列化将文件中字节形式的数据行反序列化为Hive内部操作数据行时锁使用的对象形式。
插入时,SerDe会把Hive的数据行内部表示形式序列化成字节形式并写到输出文件中。
文件格式指一行中字段容器的格式。最简单的格式是纯文本文件,但是也可以使用面向行的和列的二进制格式。

Hive存储格式一览表

存储格式 描述
TEXTFILE 存储为纯文本文件。TEXTFILE是默认的文件格式,除非配置了hive.default.fileformat参数。使用DELIMITED子句读取分隔文件。使用ESCAPED BY子句来为分隔符转义。使用NULL DEFINED AS子句指定自定义的null格式。
STORED AS SEQUENCEFILE 存储为压缩序列文件
STORED AS ORC 存储为ORC格式文件
STORED AS PARQUET 存储为parquet列存储格式。
STORED AS AVRO 存储为AVRO格式文件。
STORED AS RCFILE 存储为列存储格式
STORED AS JSONFILE 在hive4.0.0+版本中可以存储为json文件格式
STORED BY 非本机表格式存储,创建或链接到非本机表,例如Hbase,Druid,Accumulo支持的表。
INPUTFORMAT and OUTPUTFORMAT 在file_format中,指定inputFormat和OutputFormat的类名字符串

默认的存储格式:分隔的文本

如果在创建表时没有用ROW FORMAT或STORED AS子句,那么Hive所使用的默认格式是分隔的文本(delimited text),每行(line)存储一个数据行(row)。
默认的行内分隔符不是制表符,而是ASCII控制码集合中的Control-A(ASCII码为1)。选择Control-A(A)是因为在文本中出现的可能性比较小。通常在生产中我们常选用0X05(E)作为分隔符。
“集合”(collection)元素的默认分隔符为字符Control-B。它用于分隔ARRAY或STRUCT或MAP的键值对中的元素。默认的映射键(map key)分隔符为Control-C。它用于分隔MAP的键和值。表中各行之间用换行符分隔。

二进制存储格式:SEQUENCEFILE顺序文件、Avro数据文件以及RCFile

顺序文件

Hadoop的顺序文件格式是一种针对顺序和记录(键值对)的通过二进制格式。在Hive中,可以在create table语句中通过声明stored as sequencefile来使用顺序文件。
使用序列文件的一个主要的优点是它们支持可分割(splittable)的压缩。如果你有一系列在Hive外创建的序列文件,则无须额外设置,Hive也能读取它们。另一方面,如果你想使用压缩顺序文件来存储Hive产生的表,则需要设置几个相应的属性来使用压缩:

hive> create table compressed_table (id int, name string) stored as sequencefile;
hive> insert overwrite table compressed_table select id, name from partition_table;
WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
Query ID = hadoop_20190402211715_8c1eeb4a-43c2-4764-809f-a56aa56f1a5e
Total jobs = 3
Launching Job 1 out of 3
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1552651623473_0005, Tracking URL = http://jms-master-01:8088/proxy/application_1552651623473_0005/
Kill Command = /home/hadoop/tools/hadoop-2.7.7/bin/hadoop job  -kill job_1552651623473_0005
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2019-04-02 21:17:25,965 Stage-1 map = 0%,  reduce = 0%
2019-04-02 21:17:31,391 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 2.44 sec
MapReduce Total cumulative CPU time: 2 seconds 440 msec
Ended Job = job_1552651623473_0005
Stage-4 is selected by condition resolver.
Stage-3 is filtered out by condition resolver.
Stage-5 is filtered out by condition resolver.
Moving data to directory hdfs://jms-master-01:9000/user/hive/warehouse/compressed_table/.hive-staging_hive_2019-04-02_21-17-15_683_1318791344897734210-1/-ext-10000
Loading data to table default.compressed_table
MapReduce Jobs Launched:
Stage-Stage-1: Map: 1   Cumulative CPU: 2.44 sec   HDFS Read: 4378 HDFS Write: 545 SUCCESS
Total MapReduce CPU Time Spent: 2 seconds 440 msec
OK
Time taken: 17.772 seconds

顺序文件时面向行的,也就是说同一行中的字段作为顺序文件中的一条记录被存储在一起。

Avro数据文件

Avro数据文件和顺序文件相似:可分割、可压缩、面向行。不同点是,Avro数据文件支持模式演化以及多种编程语言的绑定。Hive可以使用Haivvreo SerDe读取或写入Avro数据文件。

RCFile格式文件

Hive提供了一种二进制存储格式,称为RCFile,表示按列记录文件(Record Columnar File)。RCFile除了按列方式存储数据以外,其他方面都和序列文件类似。RDFile把表分成行分片(row split),在每一个分片中先存所有行的第一列,再存它们的第二列,以此类推。
面向列的存储布局(column-oriented layout)方式可以是一个查询跳过那些不必访问的列。让我们考虑一个只需要处理某一列的查询。

面向列存储和面向行存储的区别

顺序文件时面向行的存储,即使只需要读取第二列,整个数据行也都会被加载到内存中。而RCFile面向列的存储,只需要把文件中第二列所对应的那部分读入内存。面向列的存储格式对于那些只访问表中一小部分行的查询比较有效;面向行的存储格式适合同时处理一行中很多列的情况。
两种存储格式的查询效率比较:

hive> select name from partition_table;
OK
郭靖
黄蓉
杨康
穆念慈
东邪
西毒
黄老邪
杨铁心
Time taken: 0.411 seconds, Fetched: 8 row(s)
hive> select name from compressed_table;
OK
郭靖
黄蓉
杨康
穆念慈
东邪
西毒
黄老邪
杨铁心
Time taken: 0.112 seconds, Fetched: 8 row(s)

当查询某一列时,面向列的查询比面向行的查询约快4倍;

hive> select * from compressed_table;
OK
1   郭靖
2   黄蓉
3   杨康
4   穆念慈
5   东邪
6   西毒
7   黄老邪
8   杨铁心
Time taken: 0.161 seconds, Fetched: 8 row(s)
hive> select * from partition_table;
OK
1   郭靖  20190402    china
2   黄蓉  20190402    china
3   杨康  20190402    china
4   穆念慈 20190402    china
5   东邪  20190402    china
6   西毒  20190402    china
7   黄老邪 20190402    china
8   杨铁心 20190402    china
Time taken: 0.169 seconds, Fetched: 8 row(s)

当全表查询时,两种存储格式查询效率相当。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356

推荐阅读更多精彩内容