00 初识Hadoop

1 Hadoop是个什么鬼?

简单的说,Hadoop是一个用来处理大数据的分布式软件,它提供了一个分布式文件存储(HDFS)、一个资源调度系统(YARN)以及一个分布式并行计算框架(MAPREDUCE)。作为介绍Hadoop的第一篇文章,笔者认为还是有必要好好唠唠嗑,说说它的前世今生,颜值妙用。

Hadoop最早起源于Nutch。Nutch的目标是创建出一个大型的、健壮、可扩展的搜索引擎,


1.HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

2.2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案

——分布式文件系统(GFS),可用于处理海量网页的存储

——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。

3.Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容