Hadoop离线数据分析平台实战——370外链信息分析

Hadoop离线数据分析平台实战——370外链信息分析

项目进度

模块名称 完成情况
用户基本信息分析(MR)� 完成
浏览器信息分析(MR) 完成
地域信息分析(MR) 完成
外链信息分析(MR) 未完成
用户浏览深度分析(Hive) 未完成
订单分析(Hive) 未完成
事件分析(Hive) 未完成

外链信息分析规则

和地域信息分析一样,在外链分析系统中,
我们也只是统计活跃用户、总会话以及跳出会话这三个指标的数据。
其中活跃用户和总会话个数和地域分析一样,采用uuid和sid的去重数量来表示,
也就是分别将去重后的uuid个数和去重后的sid个数作为外链分析模块中的活跃用户和总会话指标。
区别在于计算跳出会话。


外链维度信息(不考虑平台platform和日期date),
我们需要统计两个层面的数据,即:all、具体外链。
也就是说需要分别统计这两个维度的活跃用户、总会话以及跳出会话个数。
同以前的维度信息不一样,在这里外链维度采用完全确定的模式,
也就是说在运行过程中,代码中不会涉及到外链信息的插入。

需要原始数据:referrer url、uuid、u_sd、serverTime、platform这五个维度的字段信息,
所以在当前只有pc端数据和后台服务端数据的情况下,只需要对pageview事件的数据进行统计计算就可以了。


活跃用户和总会话的统计规则就是统计去重后的uuid和sid的个数。
这里主要介绍下,统计跳出会话的个数。
详见..\文档\外链信息分析-跳出会话计算规则.txt
统计的最终数据保存到表:
stats_inbound表的active_users、sessions以及bounce_sessions三列上。
涉及到其他表有:dimension_platform、dimension_date以及dimension_inbound。

编码步骤

由于计算跳出会话的规则和计算活跃用户&总会话的规则不一样,所以这里我们采用两个不同mapreduce程序来计算统计数据。

  1. 在mysql中执行文件..\文档\dimension_inbound.sql
  2. 将文件..\文档\1215.log上传到hdfs上的/logs/12/15文件夹中,然后运行AnalyserLogDataRunner类并指定时间为2017-08-15。
  3. 编写操作dimension inbound相关类
  4. 编写统计活跃用户及总会话的mr程序
  5. 测试
  6. 编写统计跳出会话个数的mr程序。
  7. 测试

内容详解

外链跳出会话计算规则如下:

跳出会话定义是指指访问一个页面的会话,也就是说通过外链进入到网站后没有进行其他任何操作的会话就是跳出会话。

例如:(使用w_1,w_2来分别表示不同来源的外部浏览情况,使用b_1,b_2来分别表示不同的本网站的pageview事件, 只考虑同一个会话中)

  1. 只有本网站的访问,没有外部链接的进入:(b_n)+
    b_1, b_2,b_3
    访问页面为:b_1 -> b_2 -> b_3
  2. 先直接访问了本网站,然后再通过外部链接进入到本网站的情况:(b_n)+w_1(b_n)+
    b_1, w_1, b_2, b_3
    访问页面为: b_1->w_1->b_2->b_3
    跳出会话:通过外链进入本网站后,如果只访问一次,就直接退出的这种情况,算做跳出会话。
    w_1: 不是跳出会话
  3. 先通过外链1进入本网站,再通过外链2进入本网站:(b_n)+(w_1(b_n)+)+
    b_1, w_1, b_2, w_2, b_3, b_4,w_3,b_5
    访问页面为:b_1->w_1->b_2->w_2->b_3->b_4->w_3->b_5
    跳出会话:通过外链进入本网站后,在通过其他外链进入之前,如果只访问过一次本网站就算作跳出会话。
    w_1: 是跳出会话
    w_2: 不是跳出会话
    w_3: 是跳出会话
    完善:通过访问的链路的确定是否是跳出会话。

跳出会话,不仅仅只需要inbound进入的页面数据,而且还需要后续的普通页面。
platform+date inboundid(0表示普通页面) + sid + servertime: map阶段输出
reducer阶段工作:

1. 按照sid进行分组操作,放到map集合中
2. 针对map集合中的单个会话集合数据进行按照时间排序
3. 计算跳出会话个数

解决方案:

采用二次排序来避免在reducer阶段的大量内存操作。
platform+date+sid+servertime inboundid: map阶段输出
platform+date进行分组,先按照platform+date进行排序,然后按照sid排序,最后按照serverTime排序。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容