书籍1 实战大数据(Hadoop+spark+Flink)1

这本书有8个章节,从基础逐渐展开,但是书籍总共也只有236页,还包含了Hadoop、spark和Flink三个知识点。所以感觉讲得可能不太会很深入。
这里毕竟是书籍的阅读部分,所以不管实用性强不强,书上说的这里都大概提一下。
首先是第一章节:

大数据技术概述

1. 什么是大数据?

简单说就是海量、高增长率和多样化的信息资产。

2. 大数据平台架构是什么?

这里讲得是一般企业的大数据平台的一个组成
一般都是5层,数据获取、数据储存、资源的调度管理、数据分析、数据服务与可视化
数据获取:数据总体上可以分为结构化和非结构化;结构化数据就可以简单理解为行数据,非结构化数据就是视频啊,图片之类的。
来源不同,格式不同,那么获取的技术肯定也是不同的。一般用户的点击数据就直接使用浏览器探针;网页数据用爬虫;MySQL数据库的binlog日志用canal组件;服务器日志就用flume组件;数据获取后为了方便应用,都存入kafka消息中间件。
数据存储
数据存储是大数据的基础,但是发展却没有CPU和内存快,这就导致了硬盘储存的速度不够,所以大数据平台的很多调优都是集中在磁盘I/O的调优。这里举个例子,一个1TB的硬盘,传输速度是100M/s,那么需要2.5小时才可以传输完。但是如果将硬盘分散到100个小硬盘里面储存,并行读取数据就可以在2分钟读完。这就涉及到了Hadoop的分布式文件系统HDFS和分布式列式数据库HBase,后面会提及。
数据处理
大数据处理按执行时间的跨度分为离线处理和实时处理。
离线处理就是批处理,时间跨度基本上是几分钟到数个小时之间。比如广电计算收视率计算。早期的离线处理用的是MapReduce,缺陷就是编程复杂,速度慢。后来出现了Spark内存计算框架和Flink实时计算框架,就将其取代了。这两个框架在离线和实时处理上都有所应用。离线上用得是spark core和Flink Dataset。
实时处理就是流处理,处理时长就在几秒以内,应用的非常广泛当前比较流行的是Spark Streaming和Flink datastreaming。后面会细说。
交互式分析 (数据处理2)
这个更像是交互式查询而不是分析。在完成离线或实时分析之后,需要根据不同的条件进行多维分析查询。像实时报表分析、实时大屏等等。
传统的数据库查询,用的多是MySQL、Oracle等,但是随着数据量的增加,这俩已经不够了。交互式查询也采用了分布式技术。
机器学习和数据挖掘(数据分析3)
大数据开发有时也是会需要用到机器学习库的,spark中的spark ml可以直接调用,也可以用它做数据挖掘。
资源管理
本质就是资源的统一管理和分配。大数据场景下需要用到很多的框架,他们在使用时会出现干扰,这个时候就得有yarn这种通用的资源管理系统。

3. 大数据工程师的技能树

主流开发语言是Java,Python主要就是用在业务数据的挖掘和分析上。
大数据平台构建也是一个重要能力,大数据平台一般指Hadoop集群,至少得会掌握Zookeeper分布式协调服务、HDFS分布式储存系统、YARN资源管理系统。
大数据的采集:数据一般有两种,一是数据库,二是日志数据。前者使用Sqoop、canal来完成,后者使用flume来完成。
大数据的储存与交换:HDFS在这方面其实优势不大,需要HBase来帮助,也经常需要Kafka消息队列来进行实时的消息中转服务。
大数据的离线和实时计算:离线计算需要掌握的技术有Hive、Spark Core、Spark SQL、Flink DataSet;实时计算需要掌握的技术有Spark Streaming和Flink DataStream。

4. 大数据项目需求分析与设计

4.1 需求项目分析

大数据的项目需求以数据为中心,大体会分为以下几个阶段:场景、概念、细节和界面的需求分析。
以新闻大数据实时分析案例来看,具体需求如下:

  • 采集新闻网站用户的浏览信息
  • 统计排名前十的新闻话题
  • 分析每天哪些时段的浏览新闻量最高
  • 分析每日新闻总量
    上面的四个阶段其实写得有点复杂,实际操作时我们需要知道,场景就是要我们明白系统的组织形式和大概功能是什么;概念就是利于用户的日志信息来分析相应的需求结果;细节分析就是具体怎么做;界面分析就是最后的展示环节了。
    我们的整个系统会包含数据的采集、存储、过滤清洗、统计分析和可视化

4.2 系统架构设计

一般情况下完整的大数据平台架构包含数据获取、数据存储、资源管理、数据处理、交互式分析、机器学习与数据挖掘和数据服务与可视化。但具体的分析还得看需求,比如这里明显就是不需要机器学习部分的,大体架构如下:
我将其分为5层:

  • 采集层:数据来源一般有2个。对于日志文件使用Flume,对于关系型数据库用Sqoop。
  • 存储层:需要用到Kafka的消息队列、MySQL、HBase和HDFS。
  • 计算层:这里要用到Flink(实时计算)、Spark(内存计算)、MapReduce(离线计算)和Hive(数据仓库)这里需要yarn来进行资源调度。
    以上这几步还要用zookeeper来进行分布式协调服务,到后面服务层就需要统一一下访问的接口(Java/Scala API)
  • 服务层:查询服务接口(HTTP+JSON),处理流程,查询缓存(Redis)
  • 应用层:HUE、达芬奇、H5+Echarts(可视化)
    以上步骤所使用的开发工具是IDEA Maven

4.3离线和实时计算数据流程设计

离线:用Flume采集日志服务器中的数据,然后写入HBase数据库,接着通过Hive和HBase集成对数据进行离线分析,并通过Sqoop通过离线结果导入MySQL数据库,最后应用层读取MySQL数据实现大屏展示。
实时:同样也是Flume采集日志数据,然后写入Kafka消息队列,接着使用spark streaming或Flink DataStream来对数据进行实时分析,分析结果放入MySQL,然后大屏展示。

以上就是书籍1的第一章大数据技术概述

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,923评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,154评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,775评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,960评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,976评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,972评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,893评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,709评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,159评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,400评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,552评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,265评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,876评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,528评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,701评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,552评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,451评论 2 352

推荐阅读更多精彩内容