Hadoop入门hello world


Hadoop是个高效的工具


介绍了Hadoop的由来和组成,当然提供给你用来分析的数据,以及最快的方式。更重要的是描述第一个Hadoop工程的详细编写过程。

1.认识Hadoop

1.1解决高速增长的存储空间和读取速度不匹配的问题

引入了多个磁盘同时读取数据的技术。但为实现这个技术,又有两个问题需要解决:

  • 硬盘故障问题
  • 各种分布式系统允许结合不同来源的数据进行分析,很难保证其正确性。

而在Hadoop中对这两个问题都做到处理和解决。对于第一个问题,常用的做法是保存数据副本(replica),Hadoop文件系统(HDFS, Hadoop Distributed FileSystem)的使用原理类似,略有不同。第二个问题Hadoop中引入了MapReduce模型,模型抽象出了硬盘读写问题并将其转换为对一个数据集的计算,同时也具备较高的可靠性。

MapReduce 是一种线性的可伸缩编程模型。使用者要写两个函数,分别是Map函数和Reduce函数,每个函数定义从一个键值对集合到另一个键值对集合到映射。性能方面,MapReduce尽量在计算节点上存储数据,以实现数据的本地快速访问,数据本地化是MapReduce的核心特征,从而获得更好的性能。另外有多种基于MapReduce的高级查询语言(Pig和Hive)供使用。稳定性上,MapReduce采用无共享(shared-nothing)框架,实现了失败检测,所有使用者无需担心系统的部分失效问题。

1.2.气象数据下载

书中的数据分析实例使用的是ncdc的气象数据,在手动编写程序之前,首先要准备好这些数据。最开始找到了ncdc的ftp站点ftp://ftp.ncdc.noaa.gov/pub/data/,下载经常性的出现断线,下载速度异常缓慢。所以不得不重新搜索新的源,最终找到了https://www1.ncdc.noaa.gov/pub/data/noaa这个地址,但是在下载时却不像ftp可以批量下载。

而只能通过脚本去抓去数据。这个脚本实现的功能是,按年份批量下载对应地址的压缩包,并将这些数据按年份保存。值得一说的是这个shell脚本使用了并行下载方式,节省了大量的时间。

#! /bin/bash
for i in {1901..2019}  
do { 
    mkdir -p /Users/macos/noaaData/$i
    wget --execute robots=off -r -np -nH --cut-dirs=4 -R index.html* https://www1.ncdc.noaa.gov/pub/data/noaa/$i/ -P /Users/macos/noaaData/$i
}&
done 

2.第一个Hadoop工程

2.1 安装并运行Hadoop

启动成功验证:

打开浏览器:
http://192.168.8.88:50070 (hdfs管理界面)显示active活跃状态
http://192.168.8.88:8088 (yarn管理界面)
以上两个地址正常显示,则说明启动成功。

2.2 Hadoop程序编写

MapReduce任务过程分为两个处理阶段:

  • map阶段
  • reduce阶段

每个阶段都以键值对作为输入和输出,类型可供选择。两个处理阶段需要分别编写相应的函数方法,并加上运行作业的代码。

新建Maven项目

  1. 在pom.xml文件中增加以下依赖关系

<dependencies> 
  <dependency> 
    <groupId>org.apache.hadoop</groupId>  
    <artifactId>hadoop-common</artifactId>  
    <version>2.8.1</version> 
  </dependency>  
  
  <dependency> 
    <groupId>org.apache.hadoop</groupId>  
    <artifactId>hadoop-hdfs</artifactId>  
    <version>2.8.1</version> 
  </dependency> 
   
  <dependency> 
    <groupId>org.apache.hadoop</groupId>  
    <artifactId>hadoop-mapreduce-client-core</artifactId>  
    <version>2.8.1</version> 
  </dependency>  
  
  <dependency> 
    <groupId>org.apache.hadoop</groupId>  
    <artifactId>hadoop-mapreduce-client-jobclient</artifactId>  
    <version>2.8.1</version> 
  </dependency>  
  
  <dependency> 
    <groupId>org.apache.hadoop</groupId>  
    <artifactId>hadoop-mapreduce-client-common</artifactId>  
    <version>2.8.1</version> 
  </dependency> 
</dependencies>

  1. 编写Map函数、Reduce函数和调用执行代码

Map函数
完成功能:在天气数据中截取温度数据。并写入到contex中为Reduce方法准备好数据。


// cc MaxTemperatureMapper Mapper for maximum temperature example
// vv MaxTemperatureMapper
import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class MaxTemperatureMapper
  extends Mapper<LongWritable, Text, Text, IntWritable> {

  private static final int MISSING = 9999;
  
  @Override
  public void map(LongWritable key, Text value, Context context)
      throws IOException, InterruptedException {
    
    String line = value.toString();
    String year = line.substring(15, 19);
    int airTemperature;
    if (line.charAt(87) == '+') { // parseInt doesn't like leading plus signs
      airTemperature = Integer.parseInt(line.substring(88, 92));
    } else {
      airTemperature = Integer.parseInt(line.substring(87, 92));
    }
    String quality = line.substring(92, 93);
    if (airTemperature != MISSING && quality.matches("[01459]")) {
      context.write(new Text(year), new IntWritable(airTemperature));
    }
  }
}
// ^^ MaxTemperatureMapper

Reduce函数
完成功能:根据Map函数传递来的数据计算最大值,并输出年份和最高温度的键值对。

// cc MaxTemperatureReducer Reducer for maximum temperature example
// vv MaxTemperatureReducer
import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class MaxTemperatureReducer
  extends Reducer<Text, IntWritable, Text, IntWritable> {
  
  @Override
  public void reduce(Text key, Iterable<IntWritable> values,
      Context context)
      throws IOException, InterruptedException {
    
    int maxValue = Integer.MIN_VALUE;
    for (IntWritable value : values) {
      maxValue = Math.max(maxValue, value.get());
    }
    context.write(key, new IntWritable(maxValue));
  }
}
// ^^ MaxTemperatureReducer

main方法:
完成功能:创建运行Job,传递数据目录并设置Map和Reduce对应class;同时设置输出键值对格式。


// cc MaxTemperature Application to find the maximum temperature in the weather dataset
// vv MaxTemperature
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MaxTemperature {

  public static void main(String[] args) throws Exception {
    if (args.length != 2) {
      System.err.println("Usage: MaxTemperature <input path> <output path>");
      System.exit(-1);
    }
    
    Job job = new Job();
    job.setJarByClass(MaxTemperature.class);
    job.setJobName("Max temperature");

    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    
    job.setMapperClass(MaxTemperatureMapper.class);
    job.setReducerClass(MaxTemperatureReducer.class);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}
// ^^ MaxTemperature

  1. 设置数据输入输出目录

在Run configurations中Program arguments输入框中,设置数据目录和输出目录的绝对路径。

运行会在输出目录下生成两个文件:

_SUCCESS
part-r-00000

第二个文件为我们需要的运行结果如下:

1948 342
1949 311
...

到此我们对Hadoop工程有了一个初步认识,并成功运行了我们的第一个项目。好了,这篇分享就到这了,感兴趣可以持续关注博客更新哦🌹

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,717评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,501评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,311评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,417评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,500评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,538评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,557评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,310评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,759评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,065评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,233评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,909评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,548评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,172评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,420评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,103评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,098评论 2 352

推荐阅读更多精彩内容

  • 一个Map/Reduce 作业(job) 通常会把输入的数据(input file)切分为若干独立的数据块(spl...
    Alukar阅读 6,685评论 0 15
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,917评论 2 89
  • 目的这篇教程从用户的角度出发,全面地介绍了Hadoop Map/Reduce框架的各个方面。先决条件请先确认Had...
    SeanC52111阅读 1,713评论 0 1
  • 文字丨九万 出品丨九万说 原创作品,转载请告知, 2012年10月我认识了一个善良的男孩,他就像一道好看的彩虹可遇...
    九万说阅读 349评论 0 0
  • 前两天,一个朋友发微信向我诉说她最近遇到的问题,大意是,公司制度调整,在工资不变的情况下,休息时间从每周两天减少到...
    职场成长菌阅读 205评论 0 1