hadoop(十五)—倒排序

上节课我们一起学习了Combiner的理论知识,这节课我们来一起学习一下倒排索引,那么首先我们来了解一下什么是倒排索引,如下图所示,我们可以看到表中有单词ID,单词还有倒排列表,倒排列表存放的是某个单词在第几篇文章中出现的次数,比如谷歌这个单词在第一篇文章中出现了1次,第二篇文章中出现了1次,第三篇文章中出现了2次,第四、第五篇文章各出现1次。那么倒排索引的用处是什么呢?我们以搜索引擎为例,像百度、谷歌这样大的搜索引擎商家,每天面对的数据量是百亿、千亿甚至更多,如此庞大的数据量,如何保证用户搜索时的快捷高效?这就用到倒排索引了,我们知道用户搜索东西的时候是通过输入关键词来搜索的,百度、谷歌是有自己的关键词列表的,它们先通过MapReduce建立起一个倒排索引列表,每个关键词在哪些文章中出现过以及出现过几次都可以在倒排索引列表快速找到,如此一来当用户搜索的时候便不用再去所有的文章中挨个查找了,直接便可以定位到相关的文章,这就极大的提高了查询效率,提升客户满意度。

image

接下来我们一起来做个倒排索引的简单的例子,假如我们现在有3个txt文件,里面存放的内容如下图所示,单词与单词之间是以一个空格分隔的。

image
       那么根据上图的三个文件,我们想要的结果如下:

       hello  a.txt->3  b.txt->2  c.txt->2

       tom  a.txt->1  b.txt->2  c.txt->2

       jerry  a.txt->1

       kitty  a.txt->1 b.txt->1

       想要得到上面的结果,一个MapReduce无法完成,我们可以通过两个MapReduce来完成也可以在Map和Reduce之间加一个Combiner做中间处理来完成,上节课我们刚学了Combiner的理论,这节我们便使用Combiner来处理。我们要想得到最终的结果,从正面推不好推,我们可以倒着推,我们以"hello"来推,最后一个Reducer输出的形式是:context.write("hello","a.txt->3  b.txt->2  c.txt->2");,那么传给Reducer的数据形式是:<"hello",{"a.txt->3","b.txt->2","c.txt->2"}>,进而我们知道mapper输出的形式是:context.write("hello","a.txt->3");context.write("hello","b.txt->2");context.write("hello","c.txt->2");。那么第一个reducer输出的形式便是:context.write("hello","a.txt->3");context.write("hello","b.txt->2");context.write("hello","c.txt->2");第一个mapper的输出就应该是context.write("hello->a.txt","1");context.write("hello->a.txt","1");context.write("hello->a.txt","1");。

        通过上面的倒推过程,我们基本上知道该怎么做了,现在就通过程序来实现。关于如何创建一个Maven工程并如何配置pom.xml等内容大家可以参考:http://blog.csdn.net/u012453843/article/details/52600313这篇博客来学习。由于我们是在前面几节课的基础上学习的,我就在一个已有的sortdatacount工程下写我们的代码了。如下所示
image

我们只需要完成一个类ReverseIndex.java即可,现在我把这个类的代码粘贴出来,如下所示

package myhadoop.mr.index;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class ReverseIndex {

public static void main(String[] args) throws Exception {
Configuration conf=new Configuration();
Job job = Job.getInstance(conf);

job.setJarByClass(ReverseIndex.class);
//将Mapper类设置到Job当中
job.setMapperClass(ReverseIndexMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
FileInputFormat.setInputPaths(job, new Path(args[0]));
//将Combiner类设置到Job当中
job.setCombinerClass(ReverseIndexCombiner.class);
//将Reducer类设置到Job当中
job.setReducerClass(ReverseIndexReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
FileOutputFormat.setOutputPath(job, new Path(args[1]));
//等待执行结束
job.waitForCompletion(true);

}

public static class ReverseIndexMapper extends       Mapper<LongWritable, Text, Text, Text>{
      private Text k=new Text();
      private Text v=new Text();
@Override
protected void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
String line=value.toString();
String[] words=line.split(" ");
//我们怎么知道文件在什么位置呢?其实我们可以通过context来获取到
FileSplit fileSplit=(FileSplit) context.getInputSplit();
//文件所在的位置
String path=fileSplit.getPath().toString();
//我们这个例子比较简单只有3个文件,还都在同一个目录下,path目录是带着hdfs路径前缀的
//为了与我们最终的想要的结果完全一致,我们把路径进行截取,我们    a.txt,b.txt,c.txt有个
//共同的特点就是长度都是5,因此我们只需要截取路径最后5个字符就可以了。
String filepath=path.substring(path.length()-5);
for(String word:words){
 k.set(word+"->"+filepath);
 v.set("1");
 context.write(k, v);
}
}
}

public static class ReverseIndexCombiner extends Reducer<Text,       Text, Text, Text>{
      private Text k=new Text();
      private Text v=new Text();
@Override
protected void reduce(Text key, Iterable<Text> values,Context     context)
throws IOException, InterruptedException {
String line=key.toString();
String[] wordAndPath=line.split("->");
int sum=0;
for(Text t : values){
sum+=Integer.parseInt(t.toString());
}
k.set(wordAndPath[0]);
v.set(wordAndPath[1]+"->"+sum);
context.write(k, v);
  }
}

public static class ReverseIndexReducer extends Reducer<Text,     Text, Text, Text>{      
      private Text v=new Text();
@Override
protected void reduce(Text key, Iterable<Text> values,Context context)
throws IOException, InterruptedException {
StringBuilder builder=new StringBuilder();
for(Text t:values){
builder.append(t+"\t");
}   
v.set(builder.toString());
context.write(key, v);
}
}

}

写完了代码,现在我们导出这个工程,关于具体导出的过程大家可以参考:http://blog.csdn.net/u012453843/article/details/52600313这篇博文进行学习,下面这张图是导出的最后一步,我们勾选第二个复选框,JAR file我们写上/root/reverseindex.jar,然后点击"Finish"。

image

导出成功后,我们到root根目录下看一下是否有我们刚才所取的名为reverseindex.jar,如下图所示,发现确实有的。

image

在执行这个程序之前,我们需要把数据上传到hdfs系统上,首先我们先把a.txt,b.txt,c.txt从Windows系统上传到虚拟机root根目录下,可以通过Filezilla工具来上传,如果不知道怎么使用FileZilla,大家可以参考:http://blog.csdn.net/u012453843/article/details/52422736这篇博文进行学习。上传到root根目录后,我们去root根目录查看一下是否真的已经有了,如下图所示,发现确实已经有a.txt,b.txt,c.txt三个文件了。

image

接着我们再把这三个文件上传到hdfs系统上,在上传之前需要先检查hdfs和yarn是否都已经启动起来了,如果没有启动的话,需要先启动它们,关于它们的启动大家可以参考:http://blog.csdn.net/u012453843/article/details/52433457这篇博客进行学习。当我们使用命令jps后如果可以看到NodeManager、ResourceManager、DataNode、SecondaryNameNode、NameNode说明所有的进程都正常启动起来了。如下图所示。

image

现在我们开始将a.txt,b.txt,c.txt文件上传到hdfs系统根目录下的index文件夹下,在上传之前我们需要现在hdfs系统根目录下新建一个index文件夹,使用命令:hadoop fs -mkdir /index

创建成功后,我们通过命令hadoop fs -ls /来查看一下hdfs系统根目录下是否有index文件,发现确实是有的,然后开始上传文件,我们三个文件一起上传,使用命令:hadoop fs -put a.txt b.txt c.txt /index来实现上传,上传完后我们进入到hdfs系统的index目录下,看看是否有我们刚才上传的文件,发现是有的,如下图所示。

image

准备好了一切,我们开始执行jar,命令是:hadoop jar reverseindex.jar myhadoop.mr.index.ReverseIndex /index /reverseindex,执行成功之后我们看看reverseindex目录下生成了哪些文件,发现有两个文件,其中part-r-00000文件便是生成的结果文件,我们使用命令:hadoop fs -cat /reverseindex/part-r-00000来查看文件的内容,发现里面确实是我们想要看到的结果,如下图所示。

image
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,651评论 18 139
  • Spring Boot 参考指南 介绍 转载自:https://www.gitbook.com/book/qbgb...
    毛宇鹏阅读 46,802评论 6 342
  • 问过一个朋友,为什么不爱看书。回答是,上学的时候念够了。 假期回家,到楼下的新华书店转悠,一半都是中小学教材及辅导...
    邵芒阅读 1,354评论 0 2
  • 雨,仍在下,飘丝一般,不疏不密,松散有致。比之刚才的急管繁弦,此刻的温柔让人心里多少宁静了些。休息了一会,下课铃就...
    秋水妹妹阅读 264评论 1 1
  • 什么是字节 字节就是存储数据的单位,并且是硬件所能访问的最小单位。 一字节=8位 1K=1024字...
    无语_ae67阅读 243评论 0 0