HDFS作业 统计top-5 总结

你是无意穿堂风 偏偏孤倨引山洪

作业内容:

1 远程读取某机器(用ip地址或主机名标识)HDFS目录/user/.../when_you_old.txt文件(保存一首英文诗)
2 统计文件中各个单词出现次数最多的5个(不区分大小写)
3 将统计的单词和次数写回到该机器某目录下 保存为 /user/.../top.txt

作业注:

作业 when_you_old.txt 原文件:

when_you_old.txt文件

统计结果 top.txt 文件

top.txt文件

解答:

解决思路
1 先读取hdfs文件
2 统计
  • 大小写转换
  • 拆成单词
  • 以单词为 key 统计
  • 排序求 top 5
3 写到hdfs文件
代码
练习连接hdfs:(非此题解答代码)
import java.net.URI;
import java.net.URISyntaxException;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.Path;

/**
 * 练习连接hdfs 读取内容
 * @author hongXkeX
 */
public class Test {
    public static void main(String[] args) throws IOException, URISyntaxException {
        //创建配置文件
        Configuration conf = new Configuration();
        //创建需访问的路径
        String path ="hdfs://192.168.71.111:9000/user/hadoop/when_you_old.txt";
        FileSystem fs = null;
        fs = FileSystem.get(URI.create(path),conf);
        //打开文件
        FSDataInputStream fsr  = fs.open(new Path(path));
        //创建缓冲流
        BufferedReader reader = new BufferedReader(new InputStreamReader(fsr));
        String lineTxt = null;
        StringBuffer buffer = new StringBuffer();
        //逐行读取文件内容
        while ((lineTxt = reader.readLine()) != null) {
            buffer.append(System.lineSeparator()+lineTxt);
        }
        //输出
        System.out.println(buffer.toString());
        reader.close();
        fsr.close();
        fs.close();
    }
}
测试代码运行结果:
测试代码运行结果

此题解答代码:
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class HdfsOperation {
    
    public static void main(String [] args) throws IOException, URISyntaxException {
        // 读取并统计各个单词出现次数的 top5
        String fileRead = "hdfs://192.168.71.111:9000/user/hadoop/when_you_old.txt";
        String statLine = ReadStatHDFS(fileRead, 5);

        System.out.println(statLine);
        // 将统计结果写回hdfs中的 top.txt 文件
        String fileWrite = "hdfs://192.168.71.111:9000/user/hadoop/top.txt";
        WriteToHDFS(fileWrite, statLine);
    }
    
    /**
     * 读取指定文件并统计 top n 结果
     * @param file  文件所在的URI
     * @param top   指定top n的n值
     * @return      返回表示统计结果的字符串
     * @throws IOException
     */
    public static String ReadStatHDFS(String file, Integer top) throws IOException {
        // key存放单词  value存放其出现的次数
        HashMap<String, Integer> hasWord = new HashMap<String, Integer>();
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(file), conf);
        // 创建需访问的路径
        Path path = new Path(file);
        // 打开文件
        FSDataInputStream hdfsInStream = fs.open(path);
        // 创建缓冲流
        BufferedReader br = new BufferedReader(new InputStreamReader(hdfsInStream));

        try {
            // 逐行读取文件内容
            String line = br.readLine();
            while (line != null){
                // 将大写全转换为小写 再用一些特定符号分离出单词
                String[] arrLine = line.toLowerCase().trim().split(",|:|;|[.]|[?]|!| ");
                // 循环处理一行中获得的单词
                for (int i = 0; i < arrLine.length; i++) {
                    String word = arrLine[i].trim();
                    if(word == null || word.equals("")){
                        continue;
                    }
                    // 若尚无此单词 新建一个key-1对
                    if (!hasWord.containsKey(word)) { 
                        hasWord.put(word, 1);
                    } else {  //如果有,就在将次数加1
                        Integer nCounts = hasWord.get(word);
                        hasWord.put(word, nCounts + 1);
                    }
                }
                // 再读取一行以循环遍历完整个文本
                line = br.readLine();
            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            br.close();
            hdfsInStream.close();
            fs.close();
        }

        // 排序
        List<Map.Entry<String, Integer>> mapList = new ArrayList<Map.Entry<String, Integer>>(hasWord.entrySet());
        Collections.sort(mapList, new Comparator<Map.Entry<String, Integer>>() {
            public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) {
                return o2.getValue() - o1.getValue();
            }
        });

        //排序后
        String top_line = "";
        for(int i = 0; i < Math.min(mapList.size(), top); i++) {
            top_line = top_line + mapList.get(i).toString() + "\n";
        }

        return top_line;
    }
    
    /**
     * 在指定位置新建一个文件,并写入字符
     * @param  file
     * @param  words
     * @throws IOException
     * @throws URISyntaxException
     */
    public static void WriteToHDFS(String file, String words) throws IOException, URISyntaxException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(file), conf);
        Path path = new Path(file);
        FSDataOutputStream out = fs.create(path);   //创建文件

        out.write(words.getBytes("UTF-8"));
        out.close();
    }
}
解答代码运行结果:
解答代码运行结果
项目查看下载:

HDFS-study


代码拓展

trim() 去掉字符串首尾的空格

trim()

split() 完后返回一个数组

split()

注:

已经配好 hadoop-eclipse-plugin 插件

远程连接调试配置参见:
远程连接调试Hadoop


作业拓展

将以上统计用 hdfs shell 实现

fs -cat /user/hadoop/when_you_old.txt | tr A-Z a-z | tr -s "\t|,| " "\n" | sort | uniq -c | sort -nr | head -5
1
hadoop fs -cat /user/hadoop/when_you_old.txt | tr '[A-Z]' '[a-z]' | awk 'BEGIN{RS="[,.:;/!?]"}{for(i=1;i<=NF;i++)array[$i]++;}END{for(i in array) print i,"=",array[i]}' | sort -k 3 -r -n | head -5
2

世界上所有的追求都是因为热爱
一枚爱编码 爱生活 爱分享的IT信徒
— hongXkeX

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容

  • 首先,我们在使用前先看看HDFS是什麽?这将有助于我们是以后的运维使用和故障排除思路的获得。 HDFS采用mast...
    W_Bousquet阅读 4,187评论 0 2
  • 包括三个作业:1.hadoop 常用shell整理。包含shell命令、使用方法、示例。命令名称 使用方法 ...
    lufaqiang阅读 877评论 0 0
  • 之前的有点忘记了,这里在云笔记拿出来再玩玩.看不懂的可以留言 大家可以尝试下Ambari来配置Hadoop的相关环...
    HT_Jonson阅读 2,949评论 0 50
  • hadoop是什么?HDFS与MapReduceHive:数据仓库,在HDFS之上,后台执行,帮你执行。faceb...
    Babus阅读 2,373评论 0 5
  • 当数据量增大到超出了单个物理计算机存储容量时,有必要把它分开存储在多个不同的计算机中。那些管理存储在多个网络互连的...
    单行线的旋律阅读 1,918评论 0 7