hive

1.下载序列化包

2.添加json序列化包 

add jar /Users/zhanxf/hadoop/hive/lib/json-serde-1.3.8-jar-with-dependencies.jar;

add jar /Users/zhanxf/hadoop/hive/lib/json-udf-1.3.8-jar-with-dependencies.jar;

3.建立hive表

DROP TABLE IF EXISTS item;

CREATE TABLE item

(

itemid STRING,

rating_normal INT,

offer_count INT,

rating_star FLOAT,

image STRING,

item_status STRING,

pop INT,

rating_bad INT,

promo_source INT,

model_discount INT,

mtime BIGINT,

price_before_discount INT,

rcount_with_context INT,

shopid STRING,

discount STRING,

touch_time BIGINT,

can_use_wholesale BOOLEAN,

sold INT,

show_discount INT,

sub_catid INT,

ctime BIGINT,

price_min_sp STRING,

distance INT,

name STRING,

attr_status STRING,

currency STRING,

country STRING,

liked BOOLEAN,

campaignid STRING,

show_official_shop_label_in_normal_position BOOLEAN,

flag INT,

stockout_time BIGINT,

third_catid INT,

is_pre_order BOOLEAN,

show_free_shipping BOOLEAN,

seller_promotionid BIGINT,

show_shopee_verified_label INT,

ads_keyword STRING

)

ROW FORMAT SERDE ‘org.openx.data.jsonserde.JsonSerDe'

STORED AS TEXTFILE;

LOAD DATA LOCAL INPATH "/Users/zhanxf/hadoop/test/item" OVERWRITE INTO TABLE item;

create table score(name string, score map)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t'

COLLECTION ITEMS TERMINATED BY ','

MAP KEYS TERMINATED BY ':’;

PARTITIONED BY (country STRING, state STRING);

CREATE TABLE item3

(

itemid STRING,

rating_normal INT,

rating_count array,

models array>

)

ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'

STORED AS TEXTFILE;

结构体查询:select models[0].sku from item3;

复杂数据类型

ARRAY:

ARRAY类型是由一系列相同数据类型的元素组成,这些元素可以通过下标来访问。

MAP:

我们可以通过userlist['username']来得到这个用户对应的password;

STRUCT:

STRUCT可以包含不同数据类型的元素。这些元素可以通过”点语法”的方式来得到所需要的元素

UNION:

UNIONTYPE,他是从Hive 0.7.0开始支持的

基本数据类型

TINYINT    1byte,-128 ~ 127

SMALLINT    2byte,-32,768 ~ 32,767

INT    4byte,-2,147,483,648 ~ 2,147,483,647

BIGINT    8byte,-9,223,372,036,854,775,808 ~ 9,223,372,036,854,775,807

BOOLEAN

FLOAT    4byte单精度

DOUBLE    8byte双精度

STRING

BINARY         从Hive0.8.0开始支持

TIMESTAMP         从Hive0.8.0开始支持

DECIMAL         从Hive0.11.0开始支持

CHAR         从Hive0.13.0开始支持

VARCHAR         从Hive0.12.0开始支持

DATE         从Hive0.12.0开始支持

文件存储格式

RCFILE

行列存储相结合的方式。一行的文件在同一块上,避免跨块读取。块上数据按列存储,便于压缩和快速的列存取。

SEQUENCEFILE

SequenceFile是一种二进制文件,其具有使用方便、可分割、可压缩的特点。

压缩选择:NONE, RECORD, BLOCK。 Record压缩率低,一般建议使用BLOCK压缩。

配置项:hive.exec.compress.output=true

io.seqfile.compression.type=BLOCK

TEXTFILE

默认格式,数据不做压缩,磁盘开销大,数据解析开销大,但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作

自定义格式

用可以通过实现inputformat和outputformat来自定义输入输出格式

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • 1. Hive基本介绍和基础: Facebook公司最早完成并开源了hive框架,可以将sql语句直接翻译成Map...
    奉先阅读 3,322评论 0 43
  • 实验目的 理解Hive在Hadoop体系结构中的角色。 熟悉Hive的DDL命令与DML操作。 区分数据仓库和数据...
    Tiny_16阅读 4,635评论 7 14
  • 第一部分 什么是Hive: Hive是基于Hadoop之上的数据仓库,数据存放在HDFS上,它同样可以通过ETL来...
    wangmin阅读 2,015评论 0 12
  • P1一天之际在于晨,早晨不只是上班族起这么早,还有的是每天把自己新鲜的蔬菜水果拿到集市上来卖的小摊贩们,他们的菜价...
    南瓜小姐的日常阅读 1,244评论 0 11
  • 今天是六一儿童节后的第一天,原本六一儿童节,我们学校组织活动要去玩皮划艇,可是天空不做美,下大暴雨,所以只有明天去...
    神了天阅读 610评论 13 7