2、Hadoop

HDFS 分布式文件系统，存储海量的数据
MapReduce 并行处理框架，实现任务分解和调度
高扩展，低成本，成熟的生态圈
设置环境变量
修改配置文件
core
map
hdfs
hadoop-env
slaves
hdfs的文件被分成块进行存储，hdfs块的默认大小是64M，块是文件存储处理的逻辑单元
namenode是管理节点，存放文件元数据(文件和数据块的映射表，数据块和数据节点的映射表)
datanode是hdfs的工作节点，存放数据块
datanode定期向namenode发送心跳信息
二级namenode定期同步元数据映像文件和修改日志
hdfs特点：数据冗余，硬件容错；流式的数据访问(写一次，读多次)；存储大文件
适用性和局限性：适合数据批量读写，吞吐量高；不适合交互式应用，低延迟很难满足；适合一次写入，多次读取；不支持多用户并发写相同文件
hadoop namenode -format
hadoop fs -ls /
hadoop fs -put src dst
hadoop dfsadmin -report
MapReduce 分而治之 map分，reduce合并
JOB 分成多个 TASK（MapTask和ReduceTask）
JobTracker 分成TaskTracker(MapTracker和ReduceTracker)
JobTracker：作业调度；分配任务、监控任务执行的状态；监控TaskTracker的状态
TaskTracker：执行任务；汇报任务状态
MapReduce的容错机制：重复执行；推测执行；

最后编辑于：2017.12.06 00:40:57

2、Hadoop

推荐阅读更多精彩内容