登录注册写文章

3.MapReduce框架原理 1- inputformat

3.MapReduce框架原理 1- inputformat

image.png

1.工作流程

简述版：inputformat ->mapTask ->reduceTask ->outoutputformat
详细版：inputformat->map(sort ) -> reduce(copy sort reduce) -> outoutputformat

2.inputformat 数据输入

切块：数据在储存在HDFS上时，物理上先进行，按照blocksize进行切块
切片：数据在计算的时候，读取过程，把文件按照按照块的大小进行去划分，这样做是为了防止跨机器去读取数据(并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位)
切片对应的注意点： 1每一个切片都对应着一个MapTask,
2.默认切片的大小就是一个块的大小
3.默认情况下，切片只针对一个文件的本身，不考虑数据的整体

3.inputFormat结构体系(源码解析)

fileInputFormat inputformat的子实现，实现切片逻辑
textInputformat fileInputFormat的子实现类，实现读取数据的逻辑

--getSplits() 负责对文件的切片
--createRecordReader() 负责创建一个RecordReader来进行数据读取
FileInputFormat 负责切片

FileInputFormat .png

TextInputFormat负责读取

TextInputFormat.png
CombineTextInputFormat切片机制(专门用来处理小文件的)
框架默认的TextInputFormat切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下。

image.png

4.Partitiner 分区

默认分区
根据当前key的hashcode值和 ReduceTask的数量取余得出分区编号
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
自定义分区
ReduceTask的数量决定分区的数量。
以手机号流量统计案例为例（5个分区）
-- 设置的 ReduceTaskNum > 5 -->不会报错，也不影响分区操作，但是会多出来一个空分区文件。
-- < ReduceTaskNum < 5 会报错，不符合逻辑
-- ReduceTaskNum = 1，走默认规则，就不会走定义的规则。

image.png

最后编辑于：2021.10.11 21:56:48

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

15）MapReduce框架原理
数据切片和MapTask并行度决定机制 1）一个Job的Map阶段并行度由客户端在提交Job时的切片数决定 2）每...
bullion阅读 806评论 0赞 1
MapReduce框架原理
3.1 MapReduce工作流程 1）流程示意图 2）流程详解上面的流程是整个mapreduce最全工作流程，...
码农GG阅读 273评论 0赞 0
12、MapReduce框架原理(上)
MapReduce工作流程流程图如下解释上面的流程是整个mapreduce最全工作流程，但是shuffle过程...
ZFH__ZJ阅读 579评论 0赞 3
MapReduce框架原理
InputFormat数据输入切片与MapTask并行度决定机制问题引出MapTask的并行度决定Map阶段的...
Groundhog阅读 226评论 0赞 0
2019-11-28 173
16宿命：用概率思维提高你的胜算以前的我是风险厌恶者，不喜欢去冒险，但是人生放弃了冒险，也就放弃了无数的可能。 ...
yichen大刀阅读 6,146评论 0赞 4

赞1赞

赞赏

手机看全文