《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系

《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系
课程特色:
本课程以
互联网日志分析系统”这一大数据应用案例为主线,依次介绍相关的大数据技术,涉及数据收集,存储,数据分析以及数据可视化,最终会形成一个完整的大数据项目。

本课程以目前主流的,最新Hadoop稳定版2.7.x为基础,同时兼介绍3.0版本新增特性及使用,深入浅出地介绍Hadoop大数据技术体系的原理、内幕及案例实践, 内容包括大数据收集、存储、分布式资源管理以及各类主要计算引擎,
具体包括数据收集组件Flume、分布式文件系统HDFS,分布式资源管理系统YARN、分布式查询引擎Hive和Presto,以及数据可视化(包括Hue、D3、EChat等),涉及各组件基本原理,使用方法,实战经验(优化技巧)以及在线演示。

本课程精心设计了互联网日志分析系统这一案例,帮助大家在理解理论的基础上,亲手实践Hadoop。

基础要求:
了解Linux基础知识,掌握Java语言基础
目标人群:
大数据爱好者,Hadoop初中级学者,希望系统性学习Hadoop的人
主讲老师:
**

**
Hulu****大数据团队
董西成,毕业于中国科学院,hulu大数据架构组负责人;《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》作者;资深Hadoop技术实践者和研究者,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计。

谭政,毕业于北京大学,曾就职于新浪微博平台研发部;曾参与微博核心Feed系统的改造,主导多机房数据同步和容灾部署,Spark内核级优化和企业推广,Hadoop集群升级与优化,Hive On Tez优化以及推广等工作。

张虔熙,毕业于中国科学院,HBase Contributor;参与维护并优化千节点规模的Hadoop集群,对分布式存储系统有深入研究(源码级修改),尤其擅长HDFS/HBase调优及应用;利用impala与presto大数据查询引擎构建企业级OLAP引擎,对高性能查询优化有丰富经验。

课程大纲
第一部分 Hadoop 概述(共1课时)

1.1 大数据背景
1.2 大数据技术体系
1.3 Hadoop生态系统构成以及核心组件
1.4 Hadoop主流发行版以及选型
包括Apache、CDH、 HDP等
1.5 Hadoop单机及分布式集群搭建方法(在线演示)
1.6 Hadoop典型应用场景
包括日志分析,搜索引擎索引构建、机器学习等
1.7 课程综合案例:分布式日志分析系统
介绍分布式日志分析系统的背景、关键模块、以及采用的关键大数据技术 。

**第二部分 大数据技术体系关键组件原理、使用与实战(共8.5课时)**** **

2.1 分布式数据收集:Flume原理与应用(共1课时)
2.1.1 Flume产生背景
2.1.2 Flume基本原理及架构
2.1.3 Flume部署模式(在线演示)
2.1.4 Flume与Hadoop整合应用与实战
2.1.5 分布式日志分析系统:数据收集模块剖析
详细介绍基于TailDir和Pool Directory Source,File Channel以及HDFS sink收集日志的flume拓扑构建方式。
2.2 分布式文件系统:HDFS基础与应用(共1课时)
2.2.1 HDFS产生背景
2.2.2 HDFS基本原理
2.2.3 HDFS架构以及关键组件
2.2.4 HDFS使用方式(在线演示)
2.2.5 HDFS优化小技巧
2.2.6 分布式日志分析系统:文件存储模块剖析
详细介绍日志文件在HDFS存放方式,以及如何解决小文件,文件归档等问题。
2.3 分布式资源管理系统:YARN架构与应用 (共1课时)
2.3.1 YARN产生背景
2.3.2 YARN基本原理以及架构
2.3.3 YARN资源调度器(Capacity Scheduler以及Fair Scheduler)
2.3.4 YARN基于标签的调度策略以及启用方式
2.3.5 YARN典型应用场景及在大数据系统中的地位
2.3.6 分布式日志分析系统:资源管理模块剖析
详细介绍容量调度器,多队列管理,如何启用基于标签的调度机制
2.4 分布式计算:批处理引擎MapReduce(第一部分)(共1课时)
2.4.1 MapReduce产生背景
2.4.2 MapReduce基本原理
2.4.3 MapReduce基本架构
2.4.4 MapReduce Java分布式程序设计(在线演示)
2.4.5 什么情况下Spark性能比MapReduce差
2.4.6 MapReduce的未来
2.5 分布式计算:批处理引擎MapReduce(第二部分)(共1课时)
2.5.1 MapReduce回顾
2.5.2 MapReduce多语言程序设计(在线演示)
2.5.3 MapReduce优化小技巧
2.5.4 分布式日志分析系统:ETL模块剖析
详细介绍如何使用Java API以及Hadoop Streaming方式设计ELT程序。
2.6 分布式计算:数据分析引擎Hive(第一部分)(共1课时)
2.6.1 Hive产生背景
2.6.2 Hive基本架构以及部署模式
2.6.3 Hive HQL基础(在线演示)
2.6.4 Hive创建Parquet与ORC表
2.6.5 总结
2.7 分布式计算:数据分析引擎Hive(第二部分)(共1课时)
2.7.1 Hive编程访问
2.7.2 Hive On Tez/Spark
2.7.3 Hive优化小技巧
2.7.4 分布式日志分析系统:数据仓库模块剖析
详细介绍如何在Hive中进行数据建模,并使用Hive查询引擎查询日志数据。
2.8 分布式计算:数据查询引擎Presto(共1课时)
2.8.1 Presto产生背景
2.8.2 Presto基本架构以及部署模式
2.8.3 Presto SQL基础(在线演示)
2.8.4 Presto优化小技巧
2.8.5 分布式日志分析系统:数据仓库查询模块剖析
详细介绍如何使用Presto加速数据查询效率(相比于Hive)
2.9 大数据可视化:可视化主流方案(共0.5课时)
2.9.1 什么是大数据可视化
2.9.2 可视化主流解决方案
2.9.3 EChart,D3,tableau, Hue等
2.9.4 分布式日志分析系统:报表可视化模块剖析
详细介绍如何构建日志分析系统的可视化模块。

第三部分 综合案例回顾:分布式日志分析系统(共0.5课时)

3.1 案例背景
3.2 基本架构与关键模块
3.3 日志分析系统部署及维护
3.4 总结

常见问题:
Q****: 会有实际上机演示和动手操作吗?
A: 有的,几乎每节课,老师均会准备上机演示部分,学员可以学习老师的实践经验。
Q****: 本课程主要是基于Hadoop 2.7.x版本吗,如果3.0成熟了,内容会不会过期?
A: 不会的。本课程以介绍Hadoop基本原理和使用技巧为主,这些内容适用于2.x之后各个版本,尽管Hadoop3.x有稍许的改动,但学员学完这门课后,应该有能力主动学习这些新功能和特性。
Q****: 本课程有专门的答疑时间吗?
A: 有的。助教会统一收集学员问题,老师在每节课最后部分,会在线回答20~30个问题,并由助教整理后发布到问答社区中。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,635评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,628评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,971评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,986评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,006评论 6 394
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,784评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,475评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,364评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,860评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,008评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,152评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,829评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,490评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,035评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,156评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,428评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,127评论 2 356

推荐阅读更多精彩内容