HIVE大数据实战项目---用户行为分析

相关精彩专题链接: 数据成就更好的你

一、项目需求
本案例的数据为小程序运营数据,以行业常见指标对用户行为进行分析,包括UV、PV、新增用户分析、留存分析、复购分析等内容。

项目需求如下:
1.日访问量分析,并观察其走势
2.不同行为类型的访问量分析
3.一天中不同时间段的访问量分析(时间段按小时划分)
4.每日新增用户情况分析
5.用户留存分析
6.复购分析
7.商品排行榜分析
8.利用sqoop将数据分析结果导入mysql存储

二、数据介绍
1.用户行为信息表


image.png

2.查看具体的数据格式
a.用户信息:head -n 3 behavior.txt


image.png

b.去除首行,首行为标题行,hive导入数据时不需要此行:
sed -i "1d" behavior.txt

三、创建表
创建用户行为表(需结合数据格式)

#创建用户行为表
create table if not exists  behavior(
user_id int comment "用户id",
goods_id int comment "商品id",
cat int comment "商品类别id",
behavior string comment "用户行为",
time1 Timestamp  comment "访问时间",
addr string comment "地域",
price double comment "单价",
amount double  comment "数量")
row format delimited 
fields terminated by "\t"
lines terminated by "\n";

#向表中导入数据
load data local inpath "/home/software/hive/data/behavior.txt" into table behavior;

四、用户行为分析:pv/uv
1.日访问量分析,并观察其走势

 select date(time1) date1,count(1) pv, count(distinct(user_id)) uv from behavior group by date(time1);
image.png

2.不同行为类型的访问量分析

select 
    date(time1) date1,
    sum(if(behavior="buy",1,0)) buy_pv, count(distinct(if(behavior="buy",user_id,null))) buy_uv,
    sum(if(behavior="cart",1,0)) cart_pv, count(distinct(if(behavior="cart",user_id,null))) cart_uv,
    sum(if(behavior="fav",1,0)) fav_pv, count(distinct(if(behavior="fav",user_id,null))) fav_uv,
    sum(if(behavior="pv",1,0)) view_pv, count(distinct(if(behavior="pv",user_id,null))) view_uv
from behavior group by date(time1);
image.png

3.一天中不同时间段的访问量分析(时间段按小时划分)

select date(time1) date1,hour(time1) hour1,count(1) pv,count(distinct(user_id)) uv from behavior group by date(time1),hour(time1);
image.png

五、获客分析
获客分析:观察每日新增用户情况。新用户的定义:第一次访问网站

select a.date1,count(1) new_visitor 
from (select user_id,min(date(time1)) date1 from behavior group by user_id)a
group by a.date1;
image.png

六、用户留存分析
留存定义:
1月1日,新增用户200人;
次日留存:第2天,1月2日,这200人里面有100人活跃,则次日留存率为:100 / 200 = 50%
2日留存:第3天,1月3日,这200名新增用户里面有80人活跃, 第3日新增留存率为:80/200 = 40%; 以此类推

#计算次日留存和3日留存
select 
    a.date1,
    count(distinct(a.user_id)) new_user_num,
    count(distinct(if(abs(datediff(a.date1,date(b.time1)))=1,b.user_id,null))) retention_one_num,
    concat(round(count(distinct(if(abs(datediff(a.date1,date(b.time1)))=1,b.user_id,null)))*100/count(distinct(a.user_id)),2),"%") retention_one_rate,
    count(distinct(if(abs(datediff(a.date1,date(b.time1)))=3,b.user_id,null))) retention_three_num,
    concat(round(count(distinct(if(abs(datediff(a.date1,date(b.time1)))=3,b.user_id,null)))*100/count(distinct(a.user_id)),2),"%") retention_three_rate
from 
   (select user_id,min(date(time1)) date1 from behavior group by user_id)a
left join behavior b
on a.user_id=b.user_id
group by a.date1

留存分析结果如下:
例:2019-11-28日的新增7610个用户,次日这些新增用户有6026个再次访问网页,留存率为79.19%,第4天,有5980个用户再次访问,留存率为78.58%


image.png

七、复购分析
指在单位时间段内,重复购买率=再次购买人数/总购买人数。
例如在一个月内,有100个客户成交,其中有20个是回头客,则重复购买率为20%。
此处的回头客定义为:按天去重,即一个客户一天产生多笔交易付款,则算一次购买,除非在统计周期内另外一天也有购买的客户才是回头客。

1.用户的购买次数统计

create table user_buy as
select m.user_id as user_id,count(1) as num
from
   (select user_id,date(time1) date1 from behavior where behavior="buy" group by user_id,date(time1))m
group by m.user_id

2.复购率计算

select concat(round(count(if(num>1,user_id,null))*100/count(1),2),"%") rebuy_rate from user_buy
#本案列的复购率为42.06%
image.png

八、商品排行榜信息
1.商品的销售数量top10,排名需考虑并列排名的情况

select * from
   (select a.goods_id as goods_id,a.sale_amount as sale_amount,dense_rank() over(order by a.sale_amount desc ) as rank1
   from 
      (select goods_id,sum(amount) sale_amount from behavior where behavior="buy" group by goods_id)a
   )b
where b.rank1<=10;
image.png

2.商品的浏览次数top10,排名需考虑并列排名的情况

select * from
    (select a.goods_id as goods_id,a.pv as pv,dense_rank() over(order by a.pv desc ) as rank1
    from 
       (select goods_id,count(1) pv from behavior where behavior="pv" group by goods_id)a
    )b
where b.rank1<=10;
image.png

3.商品的收藏次数top10,排名需考虑并列排名的情况

select * from
    (select a.goods_id as goods_id,a.fav as fav,dense_rank() over(order by a.fav desc ) as rank1
    from 
       (select goods_id,count(1) fav from behavior where behavior="fav" group by goods_id)a
    )b
where b.rank1<=10;
image.png

4.城市购买力排名

create table city_rank as
select addr as city ,round(sum(price*amount),2) as money from behavior group by addr 
order by money desc;

select * from city_rank;
image.png

九、利用sqoop将数据分析结果导入mysql存储

1.在mysql创建一张表,字段类型、顺序都和hive中的表一样

create table city_rank (city varchar(20), money double);

2.测试sqoop连接mysql是否成功

sqoop list-tables --connect jdbc:mysql://localhost:3306/ljh --username root --password root
#结果可以看到ljh数据库下的表信息,所以连接成功
image.png

3.利用sqoop将数据分析结果导入mysql存储

sqoop export --connect jdbc:mysql://localhost:3306/ljh --username root --password root --table city_rank --fields-terminated-by '\001' --export-dir '/user/hive/warehouse/ljh.db/city_rank';

4.mysql中查询导入结果,看结果是否正确


image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343