Hadoop产生的意义
随着信息社会的进步,信息数据的激增,海量数据的存储和分析成为难题,即使硬盘的存储容量不断提升,但由于硬盘数据读写速度的限制,导致读取硬盘数据需要大量的时间,效率低下。人们想,可以将数据存储在多个硬盘,并行读写数据来提高效率。Hadoop为我们提供了一个可靠的共享存储和分析系统,提高数据的存储和分析效率。HDFS实现数据的存储,MapReduce实现数据的分析和处理。
Hadoop的特点
关系型数据库和MapReduce的比较
传统的关系型数据库 | MapReduce | |
---|---|---|
数据大小 | GB | PB |
数据存储 | 交互式和批处理 | 批处理 |
更新 | 多次读/写 | 一次写入,多次读取 |
结构 | 静态模式 | 动态模式 |
完整性 | 高 | 低 |
横向扩展 | 非线性的 | 线性的 |
数据结构化程度 | 结构化数据 | 结构化、半结构化、非结构化数据 |
网格计算和MapReduce比较
- 高性能计算和网格计算将作业分散到集群的各台机器上,这些机器访问存储区域网格组成的共享文件系统。由于数据量庞大,网络带宽成了瓶颈,导致效率会低。
- MapReduce尽量在计算节点上存储数据,实现数据的本地快速访问。数据本地化是MapReduce的核心特征。