Hadoop入门

数据仓库与数据挖掘

  1. 什么是Hadoop
    1. 分布式
    2. 海量数据存储计算

作者: doug cutting

google 三篇论文 --Hadoop 思想之源

MAp-Reduce --> MR
GFS --> HDFS
BigTable --> HBase


缺点

优点
  1. hadoop组成
    1. MapReaduce(计算)
    2. Yarm(资源调度)
    3. HDFS(数据存储)
    4. Common(辅助工具)


      hadoop组成

  1. 重要目录
    (1)bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
    (2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
    (3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
    (4)sbin目录:存放启动或停止Hadoop相关服务的脚本
    (5)share目录:存放Hadoop的依赖jar包、文档、和官方案例

一.架构详解

  1. HDFS
    1. NameNode
    2. DataNode
    3. Secondary NameNode
image.png
  1. YARN
    1.RescorceManager(RM)
    2.ApplicationMaster(AM)
    3.NodeManager(NM)
    4.Container


    image.png

3.MapReaduce

将计算过程分为两个阶段:Map和Reduce
1.Map阶段并行处理输入数据

2.Reduce阶段对Map结果进行汇总


image.png

二.Hadoop运行模式

  • 本地运行模式
  • 伪分布式运行模式
  • 完全分布式运行模式(开发)

三.推荐系统框架

image.png

公司部门

QQ图片20181225170603.png

本地运行模式

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount winput output

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,180评论 2 89
  • 终极算法 关注微信号每天收听我们的消息终极算法为您推送精品阅读 前言 Hadoop 在大数据技术体系中的地位至关...
    Yespon阅读 130,775评论 12 168
  • 反射是指计算机程序在运行时可以访问、检测和修改它本身状态或行为的一种能力。比喻来说,反射就是程序在运行的时候能够“...
    BeYearn阅读 1,450评论 0 0
  • 下车映入眼帘的第一景象就一个字:冷。 断壁残垣的房屋再也见不到往日的缕缕青烟了,那倾泻而下的青瓦片似乎是...
    27cdc5c05530阅读 3,935评论 7 5
  • 艾米丽孙阅读 1,405评论 0 1

友情链接更多精彩内容