统计词频并按词频排序

一、背景描述

  1. 源文件格式
    需要处理的源文件格式如下:
    ont:a
    asd:a
    sdfd:cc
    
  2. 处理任务
    我们需要统计冒号之后的字段出现的频率,并以频率排序输出,比如上面的例子对应的输出是:
    aa
    cc
    

二、技术实现

  1. shell脚本实现
    主要思路是先用awk将需要的字段分离出来,然后写一个shell脚本利用字典用来统计单词出现的个数,最后利用linux命令sort及其-k选项来进行排序。
    下面是统计单词出现次数的脚本wordcount.sh:
    #! /bin/sh
    
    declare -A dict
    
    while read word
    do
        if [ ! -n dict[${word}] ];then
            dict[${word}]=1
        else
            ((dict[${word}]++))
        fi
    done
    
    for key in $(echo ${!dict[*]})
    do
        echo -e "$key\t\t${dict[$key]}"
    done
    
    
    在命令行运行以下命令:
    #sort -r 表示逆序排序
    [hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" | awk -F ":" '{print $2}' | ./wordcount.sh | sort -k 2 -r
    a       2
    cc      1
    [hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" | awk -F ":" '{print $2}' | ./wordcount.sh | sort -k 2 -r | cut -f1
    a
    cc
    
  2. wordcount.py替换wordcount.sh
    其实主要也就是Python版本的wordcount.py:
    #! /usr/local/bin/python3.6
    
    import sys
    
    # maps words to their counts
    word2count = {}
    
    # input comes from STDIN (standard input)
    for line in sys.stdin:
        #print(line)
        passwd = line.strip()
        if passwd not in word2count:
            word2count[passwd] = 1
        else:
            word2count[passwd] += 1
    
    for key in word2count:
        print(key + "\t" + str(word2count[key]))
    
    
    运行如下命令:
    [hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" | awk -F ":" '{print $2}' | ./wordcount.py | sort -k 2 -r | cut -f1
    a
    cc
    
    
  3. 全程Python
    在2中,我们结合了shell命令和python脚本,主要利用了shell来分割字段和排序,其实这两个功能也可以由python来实现。
  • Python字典排序
    在程序中使用字典进行数据信息统计时,由于字典是无序的所以打印字典时内容也是无序的。因此,为了使统计得到的结果更方便查看需要进行排序。Python中字典的排序分为按“键”排序和按“值”排序。
    可以使用内置的sorted()函数:
    sorted(iterable[, cmp[, key[, reverse]]])
    
    (1)iterable:是可迭代类型类型;
    (2)cmp:用于比较的函数,比较什么由key决定,有默认值,迭代集合中的一项;
    (3)key:用列表元素的某个属性和函数进行作为关键字,有默认值,迭代集合中的一项;
    (4)reverse:排序规则. reverse = True 或者 reverse = False,有默认值,默认为升序排列(False)。
    返回值:是一个经过排序的可迭代类型,与iterable一样。一般来说,cmp和key可以使用lambda表达式。
    如果对字典进行排序,常用的形式如下:sorted(dict.items(), key=lambda e:e[1], reverse=True), 其中e表示dict.items()中的一个元素,e[1]则表示按 值排序如果把e[1]改成e[0],那么则是按键排序,reverse=False可以省略,默认为升序排列。
    说明:字典的items()函数返回的是一个列表,列表的每个元素是一个键和值组成的元组。因此,sorted(dict.items(), key=lambda e:e[1], reverse=True)返回的值同样是由元组组成的列表。
  • 实现代码
    #! /usr/local/bin/python3.6
    
     import sys
     
     # maps words to their counts
     word2count = {}
     
     # input comes from STDIN (standard input)
     for line in sys.stdin:
         no,passwd = line.strip().split(":")
         if passwd not in word2count:
             word2count[passwd] = 1
         else:
             word2count[passwd] += 1
     
     res=sorted(word2count.items(),key=lambda e:e[1],reverse=True)
     for item in res:
         print(item[0])
    
    
  • 运行结果
    [hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" |  ./wordcount.py 
    a
    cc
    
    

三、大数据思维

当然,这个问题也可以使用hadoop的mapreduce来解决。和wordcount经典程序差不多,只是reducer最后需要一个排序过程。

  • mapper.sh
    #! /bin/sh
    
    while read line 
    do
        word=$(echo $line | awk -F ":" '{print $2}')
        #这里没有必要输出count,因为streaming好像并不会形成key-list
        echo -e "$word"
    done
    
    
  • reducer.sh
    #! /bin/sh
    
    declare -A dict
    while read word
    do
        if [ -n dict[${word}] ];then
            ((dict[${word}]++))
        else
            dict[${word}]=1
        fi
    done
    
    for key in $(echo ${!dict[*]})
    do
        echo -e "${dict[$key]}\t${key}" >> t
    done
    #排序
    cat t | sort -k 1 -n
    
    
  • 运行结果
    [hadoop@master workspace]$ hadoop jar ../hadoop-2.7.3/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar -D mapreduce.job.reduces=1  -input input -output output3 -mapper mapper.sh -reducer reducer.sh -file mapper.sh -file reducer.sh
    ...
    [hadoop@master workspace]$ hdfs dfs -cat output3/part-00000
    1   001462
    1   0016796001
    1   010920
    1   0114641641
    4   btmu
    4   btmuc
    4   tgss
    6   goodjob
    7   yrz1001
    8   123812
    
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,682评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,277评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,083评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,763评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,785评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,624评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,358评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,261评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,722评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,900评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,030评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,737评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,360评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,941评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,057评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,237评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,976评论 2 355

推荐阅读更多精彩内容