三分钟入门大数据之大数据基本的组件环境是什么?

哈喽,大家好,我是汉斯老师。近几年来,互联网行业由于较高的薪资收入,受到许多人的追捧。很多年轻的学子,或是其他行业的有志青年,都想要投身到这个行业中来。然而一方面受到“互联网寒冬”的影响,最近频频传出各家知名互联网公司裁员缩编的消息;另一方面,大量的人才涌入,又使得互联网产业在职场上呈现出供过于求的特征,并最终导致了职场上的激烈竞争。那么互联网行业未来的潜力在哪里?我们又应该在哪个方向上发力,才能保证自己可以获得一份高薪而稳定的工作?基于多年的互联网行业从业经验,汉斯老师在这里向大家推荐大数据方向,希望通过本人的《三分钟入门大数据》和《十分钟精通大数据》等系列文章,帮助所有有志了解学习大数据的朋友掌握大数据的相关知识,也欢迎所有对互联网行业以及大数据领域感兴趣的朋友前来交流。




大数据系统,或者说大数据生态体系的组成,是大部分大数据开发人员必须要了解和掌握的知识。那么最基本的大数据系统都包含什么呢?首先让我们来看一下下面这张非常经典的大数据系统组件图吧。


以上就是一个基本的大数据系统所包含的组件了。当然,对于一些刚进入这个领域的朋友,可能对这张图的解读不是那么明确,以下我会用对应的一张图和相应的文字来说明各个组件的作用。


HDFS: 用于存放一切信息的分布式的文件系统。大数据系统由于其涉及到的数据量较大所以往往需要仰赖于一个数据仓库系统,将所有的数据能够分门别类地存储起来,而HDFS就是这样一个仓库。需要注意一点,HDFS并不是我们通常实际用来查询或者处理数据的数据仓库组件,其更像是仓库本身,是一个偏硬件,偏系统化的概念,用于将所有的信息都囊括进去。

MapReduce:用于实际进行计算数据的编程模型,其特质强调分布式与并行。可以说,MapReduce是真正实现对大量数据进行操作和处理的工具。其具体的实现和例子,我们会在之后的文章中详细介绍。

ZooKeeper:负责大数据系统中,统一管理调度整个仓库运作的工程班。我们可以想象得到,一个复杂的系统想要能够稳定运作下去,其必须需要一个相应的角色,专职负责统一调度整个系统的资源,发布任务,协调各个组件之间的运行。ZooKeeper就是这样一个角色,可以这样说,ZooKeeper的存在,使得分布式的系统在协调运作上得到的保证。

HBase:存放数据的架子。当我们有了存储和处理数据的仓库以后,我们肯定不能将数据杂乱的堆积到仓库中吧?HBase就是仓库中的架子,我们在拿到数据后,会将数据放到相应的架子中,这样以后当我们需要使用或者处理数据时,只需要去找到相应的架子就好了。所以HBase具备一些数据库的功能,然而这里要强调一下,HBase是一个Nosql的数据库。稍后我们会详细说明,Nosql数据库与常用的数据库之间的区别与联系是什么。

Hive:查找数据的工具。从前面这个定义可以看出来,Hive其实和HBase在功能上有很多相似的地方,它们都可以查找数据,然而Hive本质上只是查找数据的功能,其不能更新数据(但是可以写入)。而HBase中,常用的增删改查都是支持的。

Pig:处理数据的工具。Pig是基于MapReduce的,所以当直接使用MapReduce开发相应的数据处理比较困难的话,Pig就是我们会想要使用的工具了。这里要说一下,在经过多年的发展后,大数据各个组件其实都在扩展其各自功能,目前能够用来简便开发MapReduce的工具中,Pig已经不是首选了,然而在最初建立大数据体系时,Pig是非常重要的一个组成部分。我们稍后也会讲一下,究竟Pig,Hive和Hbase的区别是什么。

Mahout:机器学习的功能组件库。可以这样说,大数据系统想要最大化的利用数据创造价值,往往需要机器学习相关的功能,这个时候,就是我们用到Mahout的时候了。

Flume:收集记录数据操作日志的工具。如此复杂的大数据系统,想要运作起来,肯定需要一个完备可靠的日志系统,用来记录各个组件每时每刻运行的任务,运行状况,使用的资源情况,任务分发的情况等,Flume正是为此而存在的。

Sqoop:输送数据进入仓库的工具。想想看,当我们整个数据系统搭建起来后,我们肯定需要有一个工具,能够把原始的数据,输送到数据系统中吧?Sqoop的工作就是这样的,其可以定时抽取目标数据库中的相应数据,发送到我们的大数据系统中。

Ambari:将上面所有组件打包起来的平台。想想看,上面那么多的组件,如果一个一个都要我们手动去部署安装,甚至要调试和设置,这个效率之低令人不寒而栗。那么当我们清楚了我们会用到的这些组件后,能不能找到一个工具,当我们面对一个全新的环境中,可以把整个大数据系统快速打包部署下去,这正是Ambari平台的价值所在。此外,我们在实际运作的时候,针对维护人员,需要有一个工具能够直观的监控整个大数据系统的运作状况,这也是如Ambari这样的大数据平台的作用之一。

限于篇幅的关系,以上仅仅是最基础,最早期的大数据系统所囊括的组件体系,在接下来的文章中,笔者会逐步向一一详细说明各个组件的作用和原理等。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,919评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,567评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,316评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,294评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,318评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,245评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,120评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,964评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,376评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,592评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,764评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,460评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,070评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,697评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,846评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,819评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,665评论 2 354

推荐阅读更多精彩内容

  • Zookeeper用于集群主备切换。 YARN让集群具备更好的扩展性。 Spark没有存储能力。 Spark的Ma...
    Yobhel阅读 7,267评论 0 34
  • 【什么是大数据、大数据技术】 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法在合理时间内通过传统的应...
    kimibob阅读 2,743评论 0 51
  • 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的...
    吴瑞文阅读 1,465评论 1 11
  • 悠悠五千年浩浩荡荡, 昔日耻辱上下求索今已雪, 昂首阔步新时代引领未来!
    zhulinliushui阅读 406评论 0 3
  • 下午在车上时,队友告诉我昨晚他们喝酒聊天的内容了。 是的,昨晚他和弟弟吃烧烤酒料喝啤酒,听说三个人聊到一点多才睡。...
    牵着一只小狗看世界阅读 142评论 1 1