数据科学之路(6)Hive使用细节再深入

在上一篇的结尾,我们抛出了一个企业生产环境的建表语句,发现,这个建表语句中包含的知识点实在是太多了,如果面面俱到地去介绍,显然篇幅会过长。所以,本篇主要是对上一篇的建表语句中的知识点进行详细阐述。先把建表语句搬过来:

 CREATE EXTERNAL TABLE mdm_corpus_yx_labeled (   
`uid` string,
`serial` string,
`query` string COMMENT '问题',
`domain` string COMMENT '领域',
`intent` string COMMENT '意图',
`slots` string COMMENT '分槽,实体词',
`marked_domain` string COMMENT '标记的领域',
`marked_intent` string COMMENT '标记的意图',
`marked_slots` string COMMENT '标记的实体词',
`sid` string COMMENT '机器人sn号',
`b_answer` string COMMENT '回答')
PARTITIONED BY (`dates` STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':'
STORED AS PARQUET
LOCATION 'hdfs://xxxx/usr/corpus/unit_yx/mdm/mdm_corpus_yx_labeled';
  1. 外部表 外部表(EXTERNAL)指向已经在HDFS中存在的数据。它和内部表在元数据的组织上是相同的,而实际数据的存储则有较大的差异。内部表的创建过程和数据加载过程这两个过程可以分别独立完成,也可以在一个语句中完成,在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据的访问将会直接在数据仓库目录中完成。删除内部表时,表中的数据和元数据将被同时删除。而外部表只有一个过程,加载表和创建表同时完成(CREATE EXTERNAL TABLE …… LOCATION),实际数据存储在 LOCATION 后面指定的 HDFS 路径中,并不会移动到数据仓库目录中。当删除一个外部表时,其实只是删除该链接。

  2. mdm_corpus_yx_labeled 表名是按照业务进行数据分层规范。那有的小伙伴就会问了,“什么是数据分层,为什么要进行数据分层?” 这是因为我们治理数据的时候,希望可以对数据有一个更加清晰的把控。详细来讲,为什么要进行数据分层有以下几个方面的原因:

  • 清晰数据结构:数据的每一个分层都有其特点以及使用范围,这样我们在使用表的时候能更方便地定位和理解业务逻辑。
  • 数据血缘追踪:通过数据分层,我们可以知道,顶层的表是依赖于底层的哪张表或者哪几张表。如果顶层的表一旦出现问题,我们可以迅速定位到底层的表;同样,如果底层的表出现了问题,我们同样可以快速定位到影响到哪几张顶层的业务表。
  • 减少重复工作:规范数据分层,开发一些通用的中间层表,可以极大的减少重复计算。没有规范的数据分层时,我们每个需求任务都是从最原始的表中解析,获得相应的字段,然后再聚合分析输出。如果我们将数据规范按照业务线模块等进行分块,产生中间层表。那么我们再处理类似的需求时,就可以直接依赖于中间层表,而不需要每次都用原始表开始解析。
  • 把复杂的问题简单化:将一个负责的任务分解成多个步骤来完成,每一层只处理单一的步骤,简化了问题。

对于数据分层的重要性,业界往往拿下面两张图做比喻。数据体系中的各个表的依赖就像是电线一样,我们都希望它是很规整,便于管理的。但是,大部分公司的数据往往是第一幅图,而非第二幅图。

那既然数据分层在数据仓库建设中有如此重要的地位,业界有没有一套统一的数据分层模型供大家参考呢?这里我们介绍一下猎豹移动的数据仓库建设:

在经过长时间的数据仓库迭代建设中,猎豹移动建成了适合自己业务的高可用数据仓库,其主要分为 ODM 层、MDM 层、IDM 层和 TDM 层四层数据仓库模型。

  • ODM 层 源数据层(Original Data Model)存储源数据,面向业务应用。
  • MDM 层 集市数据层(Market Data Model)存储基础集市,面向主题和业务线,提供相对中性,具有业务意义的初级加工数据。
  • IDM 层 接口数据层(Interface Data Model)存储的是接口数据,面向具体应用,按需定制,提供对外数据服务或接口。
  • TDM 层 临时数据层(Temp Data Model)存储业务处理过程中的临时数据。
  1. PARTITIONED BY Partition 对应于关系数据库中的 Partition 列的密集索引,但是 Hive 中 Partition 的组织方式和数据库中的很不相同。在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 的数据都存储在对应的目录中。例如,mdm_corpus_yx_labeled 表中包含 dates 分区,则对应于 dates = 2019-10-28 的 HDFS 子目录为:/usr/corpus/unit_bhp/mdm/mdm_corpus_yx_labeled/2019-10-28
  1. ROW FORMAT DELIMITED 是用来设置创建的表在加载数据的时候,支持的列分隔符,在表 mdm_corpus_yx_labeled 中,列分隔符为 \t

  2. COLLECTION ITEMS TERMINATED BY 一个字段的各个 item 的分隔符,在表 mdm_corpus_yx_labeled 中,字段中各个 item 分隔符为 ,

  3. MAP KEYS TERMINATED BY Map集合中,keyvalue 之间的分隔符,在表 mdm_corpus_yx_labeled 中,集合中,keyvalue 的分隔符为 :

  4. STORED AS Hive 支持 TextFile、RCFile、SequenceFile、AVRO、ORC 和 Parquet 等存储格式。那我们在建表的时候,到底要采用哪种格式呢?下面,我们来介绍一下各个存储格式的特点和适用场景:

  • TextFile 每一行表示一条记录,每行都以换行符结尾。数据不做压缩,磁盘开销大,数据解析开销大。可以结合 gzip,bzip2 使用(系统自动会检查是否使用了上述2种压缩方式,并在执行查询时自动解压),但是采用这种方式,Hive 不会对数据进行切分,从而无法对数据进行并行操作。
  • SequenceFile 是一种二进制文件存储方式,其具有使用方便、可分割、可压缩的特点,并支持三种压缩等级:NONE,RECORD,BLOCK,使用中一般建议采用 BLOCK 压缩。
  • RCFile 是一种行列存储结合的存储方式。首先将数据按行分开,保证了同一条记录在一个快上,避免了读一条记录需要读取多个 BLOCK。其次,对于每个 BLOCK 列式存储,有利于数据的压缩和快速的列存取。
  • ORC 提供了一种将数据存储在 Hive 表中的高效方法,其原理同样是将数据进行按行分块,每块按照列存储。但其效率要优于 RCFile,可以看做是 RCFile 的强化版。另外 ORC 还支持 ACID,支持单条记录的 update 和 delete。
  • Parquet 也是一种列式存储的格式,相对于 ORC,Parquet 压缩比较低,且不支持单条记录的 update 和 delete,也不支持 ACID,但是 Parquet 支持 Impala 查询引擎,所以更推荐使用该存储格式。

下图为各个存储格式数据压缩比较:

  1. LOCATION 是外部表实际数据的存储路径。

其他常用命令汇总

  1. 创建视图,包含 querydomain 字段:
hive> create view v_yx_labeled as select query,domain from mdm_corpus_yx_labeled;
  1. 查看数据库、表和视图:
hive> show databases;
hive> show databases like 'c.*';   # 以 c 开头的所有数据库
hive> use corpus;
hive> show tables;
  1. 向表中装载本地文件系统数据,并覆盖表中原有数据:
hive> load data local inpath '/user/liushaodong/unit_yx/data' overwrite into table mdm_corpus_yx_labeled_copy;
# 如果不覆盖表中原有数据,则去掉 overwrite 关键字
  1. 将分布式文件系统中的数据装载到表中,并覆盖表中原有数据:
hive> load data inpath 'hdfs://xxxx/usr/corpus/unit_yx/mdm/mdm_corpus_yx_labeled overwrite into table mdm_corpus_yx_labeled_copy;
# 去掉 local 关键字,即默认加载分布式文件系统中的数据
  1. 向表中插入数据,覆盖原有数据:
hive> insert overwrite table mdm_corpus_yx_labeled_copy select * from mdm_corpus_yx_labeled where dates = '2020-01-20';
  1. 向表中追加插入数据:
insert into table mdm_corpus_yx_labeled_copy select * from mdm_corpus_yx_labeled where dates = '2020-01-20';
# 追加数据即是将 overwrite 换成 into

OK,本篇到这里就要结束了,想了解更多有关于数据科学的小伙伴们,可以关注我哦!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容