1 Hadoop发展历史简介
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。
Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce。
HDFS是对谷歌文件系统(Google File System,GFS)的开源实现,是面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错性和可伸缩性。
MapReduce是针对谷歌MapReduce的开源实现,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,采用MapReduce来整合分布式文件系统上的数据,可保证分析和处理数据的高效性。
Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库。2004年,Nutch项目模仿GFS开发了自己的分布式文件系统NDFS(Nutch Distributed File System),也就是HDFS的前身。2004年,谷歌公司又发表了另一篇论文,阐述了MapReduce分布式编程思想。2005年,Nutch开源实现了谷歌的MapReduce。
2006年2月,Nutch中的NDFS和MapReduce开始独立出来,成为Lucene项目的一个子项目,称为Hadoop,同时,Doug Cutting加盟雅虎。2008年1月,Hadoop正式成为Apache顶级项目,Hadoop也逐渐开始被雅虎之外的其他公司使用。2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统,它采用一个由910个节点构成的集群进行运算,排序时间只用了209秒。在2009年5月,Hadoop把1TB数据排序时间缩短到62秒。Hadoop从此名声大震,迅速发展成为大数据时代最具影响力的开源分布式开发平台,并成为事实上的大数据处理标准。
2 Hadoop特性
Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:
- 高可靠性(采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务)
- 高效性(Hadoop采用分布式存储和分布式处理两大核心技术,能够高效地处理PB级数据)
- 高可扩展性(可以扩展到数以千计的计算机节点)
- 高容错性(冗余数据存储,自动保存数据的多个副本,能够自动将失败的任务进行重新分配)
- 成本低(采用廉价的计算机集群,普通用户也可以用自己的PC搭建Hadoop运行环境)
- 支持多种编程语言