大数据概念
大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
主要解决:海量数据的存储和海量数据的分析计算问题。
大数据特点:1. 大量(Volume) 2. 高速增长(Velocity) 3. 多样(Variety) 4. 低价值密度(Value)
应用场景:
- 物流仓储:大数据分析系统助力商家精细化运营、提升销量、节约成本。
- 零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。
- 旅游:深度结合大数据能力与旅游行业需求,共建旅游产业智慧管理、智慧服务和智慧营销的未来。
- 商品广告推荐:给用户推荐可能喜欢的商品。
Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
主要解决:海量数据的存储和海量数据的分析计算问题。
优势:1. 高可靠性 2. 高扩展性 3. 高效性 4. 高容错性
Hadoop1.x和Hadoop2.x的区别
HDFS架构:
- NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
- DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
- Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
YARN架构
MapReduce