1 Hadoop是个什么鬼?
简单的说,Hadoop是一个用来处理大数据的分布式软件,它提供了一个分布式文件存储(HDFS)、一个资源调度系统(YARN)以及一个分布式并行计算框架(MAPREDUCE)。作为介绍Hadoop的第一篇文章,笔者认为还是有必要好好唠唠嗑,说说它的前世今生,颜值妙用。
Hadoop最早起源于Nutch。Nutch的目标是创建出一个大型的、健壮、可扩展的搜索引擎,
1.HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
2.2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。
——分布式文件系统(GFS),可用于处理海量网页的存储
——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。
3.Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。