怎么做好网站分析这个项目,大数据行业必读

导读: 网站分析也称Web分析(web analytics)。一言以蔽之,对于网站分析,个人的理解是:网站分析通过对网站各项数据指标进行解读与分析,从而了解和归纳网站浏览者的行为及洞察行为背后的需求,有针对性地对网站进行整体或细节的改善,提升网站运营水平和更好的满足网站用户需求。总之,网站分析是网站运营的一个核心模块。网站运营人员通过网站分析来改善网站和提高业绩。

下面就简单介绍一下在网站分析项目中用到的几个知识点简介

1,HDFS简介

HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统

HDFS有很多特点:

① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。

② 运行在廉价的机器上。

③ 适合大数据的处理。多大?多小?HDFS默认会将文件分割成block,64M为1个block。然后将block按键值对存储在HDFS上,并将键值对的映射存到内存中。如果小文件太多,那内存的负担会很重。

如上图所示,HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。

1,NameNode:是Master节点,是大领导。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间;

2,SecondaryNameNode:是一个小弟,分担大哥namenode的工作量;是NameNode的冷备份;合并fsimage和fsedits然后再发给namenode。

3, DataNode:Slave节点,奴隶,干活的。负责存储client发来的数据块block;执行数据块的读写操作。

4,热备份:b是a的热备份,如果a坏掉。那么b马上运行代替a的工作。

5,冷备份:b是a的冷备份,如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息,减少a坏掉之后的损失。

6, fsimage:元数据镜像文件(文件系统的目录树。)

7, edits:元数据的操作日志(针对文件系统做的修改操作记录)

8,namenode内存中存储的是=fsimage+edits。

SecondaryNameNode负责定时默认1小时,从namenode上,获取fsimage和edits来进行合并,然后再发送给namenode。减少namenode的工作量。

2,flume概述

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。我们选用flume对内部多个系统的日志进行信号的采集、管理和查询,目前仅实现了信息管理功能,进一步会对报警、统计等功能进行开发。

flume的主要组件包括:

Source,SourceRunner,Interceptor,Channel,ChannelSelector,ChannelProcessor,Sink,SinkRunner,SinkProcessor,SinkSelector等

工作流程包含两个部分:

source->channel,数据由source写入channel,主动模式,主要步骤如下:

一个SourceRunner包含一个Source对象,一个Source对象包含一个ChannelProcessor对象,一个ChannelProcessor对象包含多个Interceptor对象和一个ChannelSelector对象

1)SourceRunner启动Source,Source接收Event

2) Source调用ChannelProcessor

3)ChannelProcessor调用Interceptor进行过滤Event操作

4)ChannelProcessor调用ChannelSelector对象根据配置的策略选择Event对应的Channel(replication和multiplexing两种)

5)Source将Event发送到对应的Channel中

channel->sink,数据由sink主动从channel中拉取(将压力分摊到sink,这一点类似于kafka的consumer)

一个SinkRunner对象包含一个SinkProcessor对象,一个SinkProcessor包含多个Sink或者一个SinkSelector

1)SinkRunner启动SinkProcessor(DefaultSinkProcessor,FailoverSinkProcessor,LoadBalancingSinkProcessor 3种)

2)如果是DefaultSinkProcessor的话,直接启动单个Sink

3)FailoverSinkProcessor,LoadBalancingSinkProcessor对应的是SinkGroup

4)FailoverSinkProcessor从SinkGroup中选择出Sink并启动

5)LoadBalancingSinkProcessor包含SinkSelector,会根据SinkSelector在SinkGroup中选择Sink并启动

6)Sink 从Channel中消费Event信息

3,MapReduce简介

MapReduce是个非常灵活和强大的数据聚合工具。它的好处是可以把一个聚合任务分解为多个小的任务,分配到多服务器上并行处理。

MongoDB也提供了MapReduce,当然查询语肯定是JavaScript。MongoDB中的MapReduce主要有以下几阶段:

1. Map:把一个操作Map到集合中的每一个文档

2. Shuffle: 根据Key分组对文档,并且为每个不同的Key生成一系列(>=1个)的值表(List of values)。

3. Reduce: 处理值表中的元素,直到值表中只有一个元素。然后将值表返回到Shuffle过程,循环处理,直到每个Key只对应一个值表,并且此值表中只有一个元素,这就是MR的结果。

4. Finalize:此步骤不是必须的。在得到MR最终结果后,再进行一些数据“修剪”性质的处理。

MongoDB中使用emit函数向MapReduce提供Key/Value对。

Reduce函数接受两个参数:Key,emits. Key即为emit函数中的Key。 emits是一个数组,它的元素就是emit函数提供的Value。

Reduce函数的返回结果必须要能被Map或者Reduce重复使用,所以返回结果必须与emits中元素结构一致。

Map或者Reduce函数中的this关键字,代表当前被Mapping文档。

4,Spark简介

什么是 Spark

Spark 是一个针对大规模数据处理的快速通用引擎

Spark 是 MapReduce 的替代方案,而且兼容 HDFS, Hive, 可容入Hadoop 的生态系统,弥补 MapReduce 的不足

Spark核心: RDD(Resilient Distributed Datasets 弹性分布式数据集)

RDD 可简单理解为: 一个提供了很多操作接口的数据集合,分布式存储于集群环境中的存储设备中(内存或硬盘),其中包括容错,并行处理等功能

==> Spark 特点

---> 快

---- 优点:与Mapreduce 相比,Spark 基于内存运算,运算速度要快100倍,基于硬盘计算,运算速度要快 10 倍

---- 缺点:没有对内存进行管理,把所有的内存管理都交给应用程序,以弥补MapReduce的不足,

容易出现 OOM(out of memory), 可使用 Java Heap Dump 工具分析 Java 程序的内存溢出

---> 易用

---- Spark 支持 Java ,Python, Scala 的 API

---- 支持80多种算法

---- 支持交互式,可以在shell 中使用Spark 验证解决问题的方法

通用(生态圈)

---- 批处理

---- 交互式查询 (Spark SQL)

---- 实时流处理 (Spark Streaming)

---- 机器学习 ( Spark MLlib )

---- 图计算 ( GraphX )

---- 与 Hadoop 很好的融合, 可以直接操作 HDFS, 并提供 Hive on Spark, Pig on Spark的框架集成 Hadoop(配置Hive on Spark 还不成熟)

兼容性 可以非常方便的与其它开源产品进行融合

---- 可以使用 Hadoop 的 YARN 和 Apache Mesos 作为它的资源管理调度器

---- 可以处理所有 Hadoop 支持的数据:HDFS, HBase, Cassandra 等

---- 不需要做任何的数据迁移就可以使用 Spark 的强大处理能力

---- 可以不依赖第三方的资源管理和调度器,实现 Standalone 作为它的内置的资源管理和调试框架,降低部署的复杂性

---- 提供了在 EC2 上部署 Standalone 的Spark 集群工具

Spark 生太圈

---> Spark Core

---> Spark SQL

---> Spark Streaming

---> Spark MLLib: 机器学习

---> Spark GraphX: 图计算

上面这四种知识点在我们这个网站分析项目里面是需要用到的,那么这个网站分析项目具体有哪些内容呢?下面我就大家介绍一下这个项目的制定框架。可以加我扣扣3300863615

来学习下面这个项目,我这里会有视频资料。

网站分析项目:

1,项目介绍

1

2,业务数据存储:HDFS

2

3,业务数据采集:Flume

3

4,数据清洗与加工:MapReduce

4

5,数据清洗与加工:Spark

5

6,项目代码讲解及项目总结

以上这些内容你了解完了这个项目也就可以完整的做好,有需要学习的可以关注我,我这里有整个完整的项目的视频,学完以后就可以做好这个项目了!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356

推荐阅读更多精彩内容

  • 大数据技术框架 1. 简介 2. Hadoop框架2.1. Hadoop-MapReduce2.1.1. 简介:2...
    sunTengSt阅读 12,026评论 1 78
  • Zookeeper用于集群主备切换。 YARN让集群具备更好的扩展性。 Spark没有存储能力。 Spark的Ma...
    Yobhel阅读 7,277评论 0 34
  • 数据管理比以往更加复杂,到处都是大数据,包括每个人的想法以及不同的形式:广告 , 社交图谱,信息流 ,推荐 ,市场...
    abel_cao阅读 865评论 0 7
  • “ “你在简历中说曾经在某公司实习过, 不如谈一谈你的实习做了什么吧。” ” 相信不少同学被问到这个问题,内心都已...
    金马营阅读 5,801评论 0 2
  • 我发现我们很多人都这样,一开始的时候对一件事情很有兴趣所以表现得很认真。但时间久了以后这些热情便慢慢消退,然后渐渐...
    如梦之梦x阅读 166评论 0 0