HDFS 分布式文件系统,存储海量的数据
MapReduce 并行处理框架,实现任务分解和调度
高扩展,低成本,成熟的生态圈
设置环境变量
修改配置文件
core
map
hdfs
hadoop-env
slaves
hdfs的文件被分成块进行存储,hdfs块的默认大小是64M,块是文件存储处理的逻辑单元
namenode是管理节点,存放文件元数据(文件和数据块的映射表,数据块和数据节点的映射表)
datanode是hdfs的工作节点,存放数据块
datanode定期向namenode发送心跳信息
二级namenode定期同步元数据映像文件和修改日志
hdfs特点:数据冗余,硬件容错;流式的数据访问(写一次,读多次);存储大文件
适用性和局限性:适合数据批量读写,吞吐量高;不适合交互式应用,低延迟很难满足;适合一次写入,多次读取;不支持多用户并发写相同文件
hadoop namenode -format
hadoop fs -ls /
hadoop fs -put src dst
hadoop dfsadmin -report
MapReduce 分而治之 map分,reduce合并
JOB 分成多个 TASK(MapTask和ReduceTask)
JobTracker 分成TaskTracker(MapTracker和ReduceTracker)
JobTracker:作业调度;分配任务、监控任务执行的状态;监控TaskTracker的状态
TaskTracker:执行任务;汇报任务状态
MapReduce的容错机制:重复执行;推测执行;
2、Hadoop
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- 1.job的本质是什么? 2.任务的本质是什么? 3.文件系统的Namespace由谁来管理,Namespace的...