hadoop基础知识

hdfs的块大小默认为129m

map操作的输出写入本地磁盘,而不是hdfs文件,reduce的输出是在hdfs文件

分布式文件系统

大数据甚于好算法
副本可以避免数据丢失
mapreduce是一个批处理系统,而不适合于交互式系统
与hadoop协同工作的处理模式
交互式sql ---》hive
迭代式计算 ---> 机器学习
流处理 ----》 存储地址
搜索 ---》


image.png

每个reduce操作都又一个输出文件
hadoop对数据进行合理的切片,默认是128MB
map任务的输出为本地磁盘,而不是hdfs


image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容