2、Hadoop

HDFS 分布式文件系统,存储海量的数据
MapReduce 并行处理框架,实现任务分解和调度
高扩展,低成本,成熟的生态圈
设置环境变量
修改配置文件
core
map
hdfs
hadoop-env
slaves
hdfs的文件被分成块进行存储,hdfs块的默认大小是64M,块是文件存储处理的逻辑单元
namenode是管理节点,存放文件元数据(文件和数据块的映射表,数据块和数据节点的映射表)
datanode是hdfs的工作节点,存放数据块
datanode定期向namenode发送心跳信息
二级namenode定期同步元数据映像文件和修改日志
hdfs特点:数据冗余,硬件容错;流式的数据访问(写一次,读多次);存储大文件
适用性和局限性:适合数据批量读写,吞吐量高;不适合交互式应用,低延迟很难满足;适合一次写入,多次读取;不支持多用户并发写相同文件
hadoop namenode -format
hadoop fs -ls /
hadoop fs -put src dst
hadoop dfsadmin -report
MapReduce 分而治之 map分,reduce合并
JOB 分成多个 TASK(MapTask和ReduceTask)
JobTracker 分成TaskTracker(MapTracker和ReduceTracker)
JobTracker:作业调度;分配任务、监控任务执行的状态;监控TaskTracker的状态
TaskTracker:执行任务;汇报任务状态
MapReduce的容错机制:重复执行;推测执行;

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1.job的本质是什么? 2.任务的本质是什么? 3.文件系统的Namespace由谁来管理,Namespace的...
    云中捞月阅读 1,569评论 0 3
  • 首先,我们在使用前先看看HDFS是什麽?这将有助于我们是以后的运维使用和故障排除思路的获得。 HDFS采用mast...
    W_Bousquet阅读 4,240评论 0 2
  • 最近看了朋友推荐的一部日本动画《命运石之门》,讲诉的是一位中二少年自称自己为疯狂科学家偶然发明时间机器,然后拯救世...
    苍蓝公子阅读 923评论 1 4
  • 关于什么时候可以结婚,有段话值得参考:“要达到能够结婚的状态,需要两个人都达到自我内心的安定:对新鲜的异性不再蠢蠢...
    陌安tjj阅读 339评论 0 0
  • 我的人生应该是没有任何遗憾的,我会游遍山川,尝遍美食,爱得撕心裂肺,记住遇见过的每一个人,我想,我会在美梦中静静死...
    季康w阅读 146评论 0 1