MapReduce 概览

MapReduce 介绍

MapReduce 是一个通用的分布式计算框架。 分布式的关键是,面向大规模的计算机集群而设计,这些集群用来解决大规模的计算、存储问题。相对于超级计算机而言, 构建集群的是普通、相对廉价、标准配件的计算机;但是当成千上万的普通计算机组合在一起,就可以协作完成不可思议的大规模存储、计算任务,虽然可能达到超级计算机的计算能力,但是相对超级计算机却廉价许多。MapReduce通过map, reduce 两个操作将大任务分割开来,使之分配到各个机器上执行相应的任务。MapReduce通过键值对(key-value)转换处理,将大任务转换成为一个个相对独立的小任务。 集群中有一个叫做master的机器负责分配任务、保存记录任务情况的数据结构,其他的机器被称为worker。master负责将map和reduce任务分配给worker机器,负责map的机器将输入的数据拆分为键值对,并保存在本机磁盘上;负责reduce的机器将相应的map结果从相应的机器中取出,并执行汇总操作。简单的说,MapReduce就是“分而治之”思想在分布式计算上的应用。

MapReduce

实例1 分布式索引构建方法

对于大量的文档数据,我们希望通过分布式的方式建立数据的倒排索引表。在索引构建的过程中,我们首先假设集群中的每一个节点都拥有一张同样的频繁词项到词项ID的映射表。在map 阶段,执行map操作的节点任务是产生<词项ID, 文档ID>形式的键值对。在下图所示的MapReduce索引方案中,将词项按照首字母分为a-f, g-p, q-z 三个词项区间,属于每一个词项区间的键值对都单独存储一份文件。举例来说,假如有n个节点执行map操作,那么就有n个属于a-f 词项区间的键值对文件,在每一个执行map运算的节点机器上都各自产生一份文件。在下图所示方案中,我们一共设置了三个节点用于reduce操作,这和划分词项区间的数目一致,每一个reduce节点负责一个词项区间键值对的汇总(或者说负责建立一个词项区间的倒排索引表),第一台执行reduce的节点(图中称为inverter,倒排器)将全部map节点存储a-f词项区间<词项ID, 文档ID> 键值对文件取出,并汇总组织为倒排表;以此类推,当所有reduce完成输出也就完成了倒排索引表的构建。


分布式索引构建

Code MapReduce 单词计数

package org.conan.myhadoop.mr;

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache.hadoop.mapred.TextOutputFormat;

/**
 * 单词统计MapReduce
 */
public class WordCount {
    /**
     * Mapper类
     */
    public static class WordCountMapper extends MapReduceBase implements Mapper<Object, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();
        /**
         * map方法完成工作就是读取文件
         * 将文件中每个单词作为key键,值设置为1,
         * 然后将此键值对设置为map的输出,即reduce的输入
         */
        @Override
        public void map(Object key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {
            /**
             * StringTokenizer:字符串分隔解析类型
             * 之前没有发现竟然有这么好用的工具类
             * java.util.StringTokenizer
             * 1. StringTokenizer(String str) :
             *  构造一个用来解析str的StringTokenizer对象。
             *  java默认的分隔符是“空格”、“制表符(‘\t’)”、“换行符(‘\n’)”、“回车符(‘\r’)”。
             * 2. StringTokenizer(String str, String delim) :
             *  构造一个用来解析str的StringTokenizer对象,并提供一个指定的分隔符。
             * 3. StringTokenizer(String str, String delim, boolean returnDelims) :
             *  构造一个用来解析str的StringTokenizer对象,并提供一个指定的分隔符,同时,指定是否返回分隔符。
             * 
             * 默认情况下,java默认的分隔符是“空格”、“制表符(‘\t’)”、“换行符(‘\n’)”、“回车符(‘\r’)”。
             */
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                output.collect(word, one);
            }
        }
    }
    /**
     * reduce的输入即是map的输出,将相同键的单词的值进行统计累加
     * 即可得出单词的统计个数,最后把单词作为键,单词的个数作为值,
     * 输出到设置的输出文件中保存
     */
    public static class WordCountReducer extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable result = new IntWritable();

        @Override
        public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {
            int sum = 0;
            while (values.hasNext()) {
                sum += values.next().get();
            }
            result.set(sum);
            output.collect(key, result);
        }
    }

    public static void main(String[] args) throws Exception {
        //数据输入路径     这里的路径需要换成自己的hadoop所在地址
        String input = "hdfs://centos:9000/words.txt";
        /**
         * 输出路径设置为HDFS的根目录下的out文件夹下
         * 注意:该文件夹不应该存在,否则出错
         */
        String output = "hdfs://centos:9000/out";

        JobConf conf = new JobConf(WordCount.class);
        conf.setJobName("WordCount");
//        conf.addResource("classpath:/hadoop/core-site.xml");
//        conf.addResource("classpath:/hadoop/hdfs-site.xml");
//        conf.addResource("classpath:/hadoop/mapred-site.xml");
        //对应单词字符串
        conf.setOutputKeyClass(Text.class);
        //对应单词的统计个数 int类型
        conf.setOutputValueClass(IntWritable.class);
        //设置mapper类
        conf.setMapperClass(WordCountMapper.class);
        /**
         * 设置合并函数,合并函数的输出作为Reducer的输入,
         * 提高性能,能有效的降低map和reduce之间数据传输量。
         * 但是合并函数不能滥用。需要结合具体的业务。
         * 由于本次应用是统计单词个数,所以使用合并函数不会对结果或者说
         * 业务逻辑结果产生影响。
         * 当对于结果产生影响的时候,是不能使用合并函数的。
         * 例如:我们统计单词出现的平均值的业务逻辑时,就不能使用合并
         * 函数。此时如果使用,会影响最终的结果。
         */
        conf.setCombinerClass(WordCountReducer.class);
        //设置reduce类
        conf.setReducerClass(WordCountReducer.class);
        /**
         * 设置输入格式,TextInputFormat是默认的输入格式
         * 这里可以不写这句代码。
         * 它产生的键类型是LongWritable类型(代表文件中每行中开始的偏移量值)
         * 它的值类型是Text类型(文本类型)
         */
        conf.setInputFormat(TextInputFormat.class);
        /**
         * 设置输出格式,TextOutpuTFormat是默认的输出格式
         * 每条记录写为文本行,它的键和值可以是任意类型,输出回调用toString()
         * 输出字符串写入文本中。默认键和值使用制表符进行分割。
         */
        conf.setOutputFormat(TextOutputFormat.class);
        //设置输入数据文件路径
        FileInputFormat.setInputPaths(conf, new Path(input));
        //设置输出数据文件路径(该路径不能存在,否则异常)
        FileOutputFormat.setOutputPath(conf, new Path(output));
        //启动mapreduce
        JobClient.runJob(conf);
        System.exit(0);
    }

}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,492评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,048评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,927评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,293评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,309评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,024评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,638评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,546评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,073评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,188评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,321评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,998评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,678评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,186评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,303评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,663评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,330评论 2 358

推荐阅读更多精彩内容