大数据技术原理与应用:大数据处理架构Hadoop生态圈

Hadoop生态圈

概述

Hadoop简介
什么是Apache hadoop?
Apache Hadoop项目是以可靠、可扩展和分布式计算为目的而发展而来的开源软件

Apache Hadoop 软件库是一个允许在集群计算机上使用简单的编程模型来进行大数据集的分布式任务的框架。它是设计来从单服务器扩展到成千台机器上,每个机器都能高效地提供本地的计算和存储。

Hadoop发展历史



Hadoop特性

Hadoop在企业应用架构

Hadoop版本演变

Hadoop Version:0.x为Hadoop1.0;从0.23.x开始为Hadoop2.x

Hadoop版本架构演变:将繁重的调度工作整合成一个Yarn框架

其他版本Hadoop

Hadoop架构

Hadoop生态圈

产品功能简介

Hadoop生态系统图

产品术语说明
Hadoop项目包括模块:

  • Hadoop Common :通用的工具来支持其他的Hadoop模块
  • Hadoop Distributed FileSystem(HDFS):一个提供高可用获取应用数据的分布式文件系统
  • Hadoop YARN;Job调度和集群资源管理的框架
  • Hadoop MapReduce:基于YARN系统的并行处理大数据集的编程模型
    其他Hadoop相关的项目:
  • Ambari:一个基于web的工具,用来供应、管理和监测Apache Hadoop集群包括支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari 也提供一个可视的仪表盘来查看集群的健康状态(比如热图),并且能够以一种用户友好的方式根据其特点可视化的查看MapReduce、pig和Hive 应用来诊断其性能特征。
  • Avro :数据序列化系统。
  • Cassandra :可扩展的多主节点数据库,而且没有单节点失败情况。
  • Chukwa : 管理大型分布式系统的数据收集系统
  • HBase ; 一个可扩展的分布式数据库,支持大表的结构化数据存储
  • Hive : 一个提供数据概述和AD组织查询的数据仓库
  • Mahout :可扩展大的机器学习和数据挖掘库
  • Pig :一个支持并行计算的高级的数据流语言和执行框架
  • Spark : 一个快速通用的Hadoop数据的计算引擎。spark 提供一个简单和富有表现力的编程模型并支持多领域应用,包括ETL、机器学习、流处理 和图计算。
  • Tez : 一个通用的数据流处理框架,构建在Hadoop YARN上,提供一个有力的灵活的引擎来执行一个任意的DAG任务来处理数据(批处理和交互式两种方式)。Tez 可以被Hive、Pig和其他Hadoop生态系统框架和其他商业软件(如:ETL工具)使用,用来替代Hadoop MapReduce 作为底层的执行引擎。
  • ZooKeeper :一个应用于分布式应用的高性能的协调服务。
ambari通过开发提供、管理和监测Hadoop集群的软件使得hadoop的管理更简单
Avro 是数据序列化系统,简单的集成了动态语言,代码生成不再需要读写数据文件也不再使用或集成RPC协议。
Cassandra是一个高可扩展的、最终一致、分布式、结构化的k-v仓库,Cassandra将BigTable的数据模型和Dynamo的分布式系统技术整合在一起。
Chukwa 是一个监测大型分布式系统的开源数据收集系统。
Hbase是一个开源的,分布式,版本化,非关系的数据库,仿照自Google的BigTable,BigTable的分布式数据存储由GFS(Google File System)提供,HBase在Hadoop和HDFS上提供类似大表能力。
Hive架构:Apache Hive数据仓库软件用于查询和管理大数据集驻扎在分布式仓库上。
mahout 项目目标是构建一个快速创建可扩展高性能的机器学习应用的环境。
Pig是数据流执行引擎
Spark庞大的生态圈
Tez是一个针对Hadoop数据处理应用程序的新分布式执行框架
ZooKeeper是一个开源的来提供高可靠的分布式协调的服务

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具
Flume是一个分布式、可靠的、高可用的有效收集、聚合和转移大量日志文件的服务

Impala类似与Hive,是Cloudera公司主导开发的新型查询系统,比hive更加高效

Hadoop 安装部署

伪分布式安装

目前Hadoop的Stable版本归为2.9.0,这里以2.9.0版本为例子:

部署教程可以看我的另外一篇文章:Centos7部署Hadoop伪分布式集群.

集群部署建议

Hadoop集群中需要有哪些节点类型?

集群硬件要求

硬件配置推荐

集群网络拓扑建议
集群网络拓扑

集群部署方式建议
集群部署方式建议

集群基准测试建议
Hadoop集群基准测试:TestDFSIO/WordCountExample.jar

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容