登录注册写文章

MR中的 InputFormat and InputSplit

MR中的 InputFormat and InputSplit

前言：
在MapReduce中Map的数量与InputSplit数量相等，想要改变一个job的Map任务数要从InputSplit的数目和大小出发，而InputSplit是由InputFormat生成的，两者的关系如下图：

ref:https://data-flair.training/blogs/inputsplit-in-hadoop-mapreduce/

InputSplit

InputSplit包含一个以字节为单位的长度和一组存储位置（一组主机名）。
一个InputSplit由一个Map任务来处理。
InputSplit并不包含数据本身，而是指向数据的引用。
InputSplit是由记录（record，key-value pair）组成。
MapReuce应用开发人员不必直接处理InputSplit，因为它是由InputFormat创建的，InputFormat负责创建输入分片并将它们分割成记录

InputFormat

InputFormat类负责将存储在HDFS上的不同格式的输入文件调用getSplits()分割成InputSplit，并且提供了用于Map()函数读取记录的createRecordReader()方法；

InputFormat的类型

ref:https://data-flair.training/blogs/hadoop-inputformat/
FileInputFormat
如何设置分片大小？
影响分片大小的属性有：

mapreduce.input.fileinputformat.split.minsize
mapreduce.input.fileinputformat.split.maxsize
dfs.blocksize

分片大小的计算公式为：
max(minimumSize, min(maximumSize, blockSize))
在默认情况下：
minimumSize < blockSize < maximumSize，因此默认情况下分片大小就是文件块大小

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

MapReduce篇之InputFormat,InputSplit,RecordReader
平时我们写MapReduce程序的时候，在设置输入格式的时候，总会调用形如job.setInputFormatCl...
博弈史密斯阅读 4,373评论 1赞 2
MapReduce的类型与格式
MapReduce数据处理模型：map和reduce函数的输入和输出时键值对。 MapReduce的类型 Hado...
Vechace阅读 5,167评论 0赞 0

Hadoop Map/Reduce执行流程详解
一个Map/Reduce 作业（job）通常会把输入的数据（input file）切分为若干独立的数据块（spl...
Alukar阅读 11,692评论 0赞 15
2016-01-23 Hadoop the Definitive 4th
摘自：http://staticor.io/post/hadoop/2016-01-23hadoop-defini...
wangliang938阅读 3,717评论 0赞 1
大数据学习day_6
思考问题 Mapper类 Mapper类四个泛型,分别是KEYIN、VALUEIN、KEYOUT、VALUEOU...
Sakura_P阅读 4,361评论 0赞 3

赞1赞

赞赏

手机看全文