Hive总结及案例讲解

完整hive总结

hive建立一张表，跟已经存在的结构化的数据文件产生映射关系。映射成功后，就可以通过写HQL来分析这个结构化的数据文件，避免了写mr程序的麻烦。
数据库：和hdfs中/user/hive/warehouse下的一个文件夹对应；
表：和数据库文件夹下面的子文件夹/user/hive/warehouse/库名.db/表名对应；
表的数据位置目前不能随便存放，一定要在指定的数据库表的文件夹下面；
建立表的时候，需要指定分隔符，否则可能会映射不成功。
建表的字段个数和字段类型，要跟结构化数据中的个数类型一致。
分区表字段不能够在表中已经存在；
分区字段是一个虚拟的字段，不存放任何数据；
分区字段的数据来自于装载分区表数据的时候指定的；
分区表的字段在hdfs上的效果就是在建立表的文件夹下面又创建了子文件夹；
建立分区表的目的把数据的划分更加细致，减少了查询时候全表扫描的成本，只需要按照指定的分区扫描数据并显示结果即可；
分区表就是辅助查询，缩小查询范围，加快数据的检索速度。
分桶表在创建之前需要开启分桶功能；
分桶表创建时，分桶的字段必须是表中已经存在的字段，即要按照表中的哪个字段进行分开；
分桶表也是把表所映射的结构数据文件分成更细致的部分，但是更多的是用在join查询提高效率之上，只需要把join的字段在各自表中进行分桶操作。

Hive之影评分析案例

现有三分数据，具体数据如下：

1.users.txt

数据格式（共有6040条数据）

3:M:25:15:55117

对应字段

用户id	性别	年龄	职业	邮政编码
user_id	gender	age	work	coding

2. movies.txt

数据格式（共有3883条数据）

3:Grumpier Old Men (1995):Comedy|Romance

对应字段

电影id	电影名字	电影类型
movie_id	name	genres

3. ratings.txt

数据格式（共有1000209条数据）

1:661:3:978392198

对应字段

用户id	电影id	评分	评分时间戳
user_id	movie_id	rating	times

库表映射实现

建库

create database movie;
use movie;

创建t_user表并导入数据

create table t_user(
user_id bigint,
gender string,
age int,
work string,
code string
) row format delimited fields terminated by ':';

load data local inpath '/home/tarena/hivedata/users.txt' into table t_user;

创建t_movie表并导入数据

create table t_movie(
movie_id bigint,
name string,
genres string
)  row format delimited fields terminated by ':';

load data local inpath '/home/tarena/hivedata/movies.txt' into table t_movie;

4.创建t_rating表并导入数据

create table t_rating(
user_id bigint,
movie_id bigint,
rating double,
times string
) row format delimited fields terminated by ':';

load data local inpath '/home/tarena/hivedata/ratings.txt' into table t_rating;

案例实现

1. 求被评分次数最多的10部电影，并给出评分次数（电影名，评分次数）

需求字段
1.1) 电影名：t_movie.name
1.2) 评分次数：t_rating.rating
思路
按照电影名进行分组统计，求出每部电影的评分次数并按照评分次数降序排序。
实现

create table result1 as
select b.name as name,count(b.name) as total from t_movie b 
inner join t_rating c on b.movie_id=c.movie_id
group by b.name
order by total desc

2. 求movieid=2116这部电影各年龄的平均影评（年龄，影评分）

需求字段
1.1) 年龄：t_user.age
1.2) 影评分：t_rating.rating
思路
t_user和t_rating表进行联合查询，movie_id=2116过滤条件，年龄分组
实现

create table result3 as 
select a.age as age, avg(c.rating) as avgrate from t_user a
join t_rating c
on a.user_id=c.user_id 
where c.movie_id=2116
group by a.age;

3.分别求男性，女性当中评分最高的10部电影（性别，电影名，影评分）

需求字段
1.1) 性别：t_user.gender
1.2) 电影名：t_movie.name
1.3) 影评分：t.rating.rating
思路
2.1) 三表联合查询
2.2) 按照性别过滤条件，电影名作为分组条件，影评分作为排序条件进行查询
实现
3.1) 女性当中评分最高的10部电影

create table result2_F as 
select 'F' as sex, b.name as name, avg(c.rating) as avgrate 
from t_rating c join t_user a on c.user_id=a.user_id 
join t_movie b on c.movie_id=b.movie_id
where a.gender='F' 
group by b.name order by avgrate desc 
limit 10;

3.2) 男性当中评分最高的10部电影

create table result2_M as 
select 'M' as sex, b.name as name, avg(c.rating) as avgrate 
from t_rating c join t_user a on c.user_id=a.user_id 
join t_movie b on c.movie_id=b.movie_id 
where a.gender='M' 
group by b.name order by avgrate desc 
limit 10;

4.求最喜欢看电影（影评次数最多）的那位女性评最高分的10部电影的平均影评分（电影编号，电影名，影评分）

需求字段
1.1) 电影编号：t_rating.movie_id
1.2) 电影名：t_movie.name
1.3) 影评分：t_rating.rating
思路
2.1) 先找出最喜欢看电影的那位女性
2.2) 根据2.1中的女性user_id作为where过滤条件，以看过的电影影评分rating作为排序条件进行排序，找出评分最高的10部电影
2.3) 求出2.2中10部电影的平均分
实现
3.1) 最喜欢看电影的女性（t_rating.user_id，次数）

create table result4_A as 
select c.user_id,count(c.user_id) as total from t_rating c 
join t_user a on c.user_id=a.user_id 
where a.gender='F' 
group by c.user_id order by total desc limit 1;

3.2) 找出那个女人评分最高的10部电影

create table result4_B as
select c.movie_id, c_rating as rating from t_rating c 
where c.user_id=1150 order by rating desc limit 10;

3.3) 求出10部电影的平均分

select d.movie_id as movie_id, b.name as name, avg(c.rating) 
from result4_B d join t_rating on d.movie_id=c.movie_id 
join t_movie on c.movie_id=b.movie_id 
group by d.movie_id, b.name;

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,539评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,594评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,871评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,963评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,984评论 6赞 393
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,763评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,468评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,357评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,850评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,002评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,144评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,823评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,483评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,026评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,150评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,415评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,092评论 2赞 355