Hadoop 之父:普通程序员到顶级公司 CTO 的进阶之路

做大数据开发的朋友一定用过 Hadoop 这个工具,它是一款支持数据密集型的分布式应用程序。Hadoop 基于分布式档案系统和 MapReduce 技术,通过节点分工的模式把海量的数据处理工作分发至多台机器上,再将每台机器处理的结果汇总整合。虽然它的逻辑原理并不复杂(即简单的分治思想),但其中要攻克的技术难点却颇多,比如早期备受诟病的安全问题、文件存储压缩问题等。能开发出这样一个工具的人,必定有他的过人之处,那么接下来就跟鸡仔一起来了解被誉为 Hadoop 之父的 Doug Cutting,他到底是何许人也?又有哪些值得我们学习的地方呢?

Doug 来自加利福利亚纳帕谷的农村,1981 年他考上了斯坦福大学。虽然考上了大学,但家庭并不富裕的 Doug 却喜忧参半。只有借助贷款,他才能负担起学费

斯坦福大学

在斯坦福,Doug 学习了语言学和计算机相关的课程。他觉得计算机课程很有趣,更重要的是,他发现学习计算机可以帮他尽早还清贷款。因此,临近毕业之际,他没有选择继续求学深造,而是在施乐公司(看过《乔布斯传》的朋友应该对这所公司有所了解,这家公司在当时非常有名,它的主要研究领域是印刷相关的技术。)找了一份薪水不错的工作,他的工作内容是进行自然语言处理和人工智能相关的研究,借此他也有幸参与了在当时比较新潮的一个领域——搜索

如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群458345782,私信管理员即可免费领取开发工具以及入门学习资料

施乐的工作环境

在谷歌之前,有不少公司曾对搜索领域做过探索,而这些公司在 Google 之后都被遗忘了。施乐就是其中的一员,它可以说是搜索领域的先驱。当然,他们对搜索的探索,重点围绕着自己的主业开展

我们都知道,施乐一直从事打印、复印相关的业务,他们当时研究的方向是如何将纸制品电子化。而纸制品电子化面临的主要问题,除了如何正确地识别纸制品上的文字外,还要保证如何快速检索这些已电子化的文件资料,Doug 当时从事的主要是后一项工作。这段时间的工作经验积累,让他在搜索技术的广度和深度上都得到了极大的提升

施乐的豆袋会议室

之后不久,随着网络时代到来,以雅虎为代表的基于网络搜索的公司如雨后春笋一样涌现出来。Doug 见证了整个搜索行业的崛起,当时,为了便于用户检索互联网信息,雅虎采用的方案是分类整合,就是说每当有人新建立一个网站,雅虎便将它添加到雅虎的网站库目录中,然后再将网站分成金融、新闻、体育、娱乐等板块

雅虎中国首页

雅虎的这个方案虽然能够帮助人们快速找到对应需求的站点,但无法精细地帮助用户找到自己的个性化需求。这时候谷歌出现了,它采用的是基于 PageRank 的搜索算法,可以精准地定位人们的检索目标,帮助人们找到想要的结果。就凭着这点关键的技术创新,谷歌搜索业务迎来了发展的飞跃期

PageRank算法简化图解

Doug 虽然在施乐公司已积累了不少搜索技术的经验,但他探索的搜索技术都是基于离线环境的,因此数据量级不可能很大。Doug 感觉它的技术经验有点纸上谈兵。于是在 1997 年底,Doug 决定利用业余时间写一个开源项目,他在家以每周两天的时间投入开发,不久之后,便诞生了第一个开源文本搜索函数库——Lucene

Lucene logo

Google 的高速发展让 Doug 产生了危机,他担心日益减少的网络搜索引擎可能让信息检索行业出现新的商业垄断。Doug 于是着手与同事一起开发出了 Nutch,这是第一个与 Google 进行竞争的大型开源网络搜索引擎项目。Nutch 虽然开发出来了,但和之前一样,Nutch 工具依然没有经历过实战检验,Doug 接下来要做的,是在大量级的数据下,对 Nutch 进行压测。但大数据压测就意味着要采购大量的设备和数据。但 Doug 当时待业在家,并没有足够的财力购买这些设备和数据

Nutch 架构示意图

就在 Doug 为测试困扰时,Google 随即发布了一份研究报告,报告中介绍了两款 Google 为了支持自家产品而研发的软件平台,一个是 GFS(即 Google File System),用于存储不同设备产生的海量数据。另外一个是 MapReduce,它在 GFS 上工作,用于分布式大规模数据处理。基于这两个平台,Doug 开发出了大名鼎鼎的 Hadoop

Hadoop logo

这就解决了困扰 Doug 很久的压测问题,之前可能需要一台超级计算机才能完成的工作,现在只需要将任务分布在几台廉价的计算机上同样可以完成。Doug 对 Google 的开源大加赞赏「我们开始设想用 4-5 台电脑来实现这个项目,但在实际运行中牵涉了大量繁琐的步骤需要靠人工来完成。Google 的平台让这些步骤得以自动化,为我们实现整体框架打下了良好的基础。」

MapReduce 工作流简化图

出于时间成本的考虑,Doug 决定结束自己的自由职业生涯。以此来进一步完善他的 Hadoop 项目。他先找了 IBM ,但 IBM 对他早期的 Lucene 项目更感兴趣。就在此时,雅虎的负责人 Raymie Stata 热情邀请他加入雅虎公司并马上对搜索业务项目进行优化改造。加入雅虎后,Doug 如虎添翼,他有一支一百人的团队帮他完善 Hadoop 项目,这大大加速了 Hadoop 项目的发展。不久之后,雅虎就将它的搜索业务架构迁移到 Hadoop 上来。两年后,雅虎启动了基于 Hadoop 的第一项目 Webmap——一个用来计算网页间链接关系的算法。迁移项目至 Hadoop 的成效立竿见影,在相同的硬件环境下,基于 Hadoop 的 Webmap 的反应速度是之前系统的 33 倍

虽然 Hapdoop 极大地提高了雅虎的搜索性能,但当时的雅虎是热锅上的蚂蚁。内部管理,产品定位,技术服务等诸多问题无法得到解决,雅虎的局面实在是江河日下了。由于公司只关注产品,却不想在技术上有过多的投入,Doug 于是跳槽到了 Cloudera

Cloudera logo

Cloudera 是为某些公司提供技术服务和咨询的平台,它的客户多来自传统行业。传统行业的客户有大量的数据,但不知道如何合理地使用它们,这正好与 Doug 想在 Hadoop 平台处理更大量的数据的想法不谋而合,在这里他有大量的客户业务数据,辅助他更好地完善 Hadoop 项目。值得一提的是,在 Doug 服务传统企业的过程中,越来越多的互联网巨头也开始加入了 Hadoop 的队伍(如 Facebook、eBay、LinkedIn 等),Hadoop 的团队无形之中被进一步扩大了

目前, 除了作为 Hadoop 之父外,Doug 还有另外一个身份——Cloudera 首席架构师。Cloudera 可以说是 Hadoop 生态圈最知名的公司了,它的核心产品是为客户搭建基于 Hadoop 的大数据平台,帮助企业安装、配置、运行 Hadoop 以便处理海量的数据

Cloudera 版本衍化

谈到目前 Hadoop 的发展趋势,Doug 很是意外 「我从没有想过,Hadoop 除了搜索引擎,还能在其它方面发挥作用,它如今的受关注程度,已经完全超过了我之前的想象。」

Doug Cutting

谈及他的成功事迹,Doug 觉得主要归功于两点:热情。他喜欢攻克技术难题带来的成就感,他非常享受自己的程序被千万人使用的感觉。另外一个就是脚踏实地。Doug 的所有成就都是他一点一滴积累来的,头顶青天脚踏实地,时间会给人最好的嘉奖

希望 Doug Cutting 的故事对你能有所启发。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,137评论 6 511
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,824评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,465评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,131评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,140评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,895评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,535评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,435评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,952评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,081评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,210评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,896评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,552评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,089评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,198评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,531评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,209评论 2 357

推荐阅读更多精彩内容

  • 本文对hadoop生态圈技术做一个概要的介绍,文章中的前半部分的信息大多来自于网络,这里只是按照自己的学习思路整理...
    我是老薛阅读 15,762评论 0 5
  • 1:正确认识学习26个字母 字母的念法,跟我们平时的念法还是有很大的区别的。 方法:最好听一下专业老师的发生和语调...
    馮绍峰阅读 300评论 0 2
  • 时隔许久,许久许久没有在写过东西,可能生活已经让我变得懒惰,没有灵性,也是这时候开始慌张。 上完厕所,习惯性站在六...
    石头会下雨阅读 212评论 0 0
  • 城市和人 一座城与一个人 结识一个人 认识一座城 大美阿勒泰 在油画中看到它 是这边风景独好 还是施以颜色殊妙 额...
    墨迹简书阅读 1,266评论 12 5
  • 朱熹曾说:君子之心,常怀敬畏。 人只有心怀敬畏,才能约束自己的行为,才不会为所欲为。而敬畏生命,感恩生活,也会让人...
    曲幽兰阅读 914评论 0 0