统计词频并按词频排序

一、背景描述

源文件格式
需要处理的源文件格式如下：
```
ont:a
asd:a
sdfd:cc
```
处理任务
我们需要统计冒号之后的字段出现的频率，并以频率排序输出，比如上面的例子对应的输出是:
```
aa
cc
```

二、技术实现

shell脚本实现
主要思路是先用awk将需要的字段分离出来，然后写一个shell脚本利用字典用来统计单词出现的个数，最后利用linux命令sort及其-k选项来进行排序。
下面是统计单词出现次数的脚本wordcount.sh:

#! /bin/sh

declare -A dict

while read word
do
    if [ ! -n dict[${word}] ];then
        dict[${word}]=1
    else
        ((dict[${word}]++))
    fi
done

for key in $(echo ${!dict[*]})
do
    echo -e "$key\t\t${dict[$key]}"
done

在命令行运行以下命令:

#sort -r 表示逆序排序
[hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" | awk -F ":" '{print $2}' | ./wordcount.sh | sort -k 2 -r
a       2
cc      1
[hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" | awk -F ":" '{print $2}' | ./wordcount.sh | sort -k 2 -r | cut -f1
a
cc

wordcount.py替换wordcount.sh
其实主要也就是Python版本的wordcount.py:

#! /usr/local/bin/python3.6

import sys

# maps words to their counts
word2count = {}

# input comes from STDIN (standard input)
for line in sys.stdin:
    #print(line)
    passwd = line.strip()
    if passwd not in word2count:
        word2count[passwd] = 1
    else:
        word2count[passwd] += 1

for key in word2count:
    print(key + "\t" + str(word2count[key]))

运行如下命令：

[hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" | awk -F ":" '{print $2}' | ./wordcount.py | sort -k 2 -r | cut -f1
a
cc

全程Python
在2中，我们结合了shell命令和python脚本，主要利用了shell来分割字段和排序，其实这两个功能也可以由python来实现。

Python字典排序
在程序中使用字典进行数据信息统计时，由于字典是无序的所以打印字典时内容也是无序的。因此，为了使统计得到的结果更方便查看需要进行排序。Python中字典的排序分为按“键”排序和按“值”排序。
可以使用内置的sorted()函数：
```
sorted(iterable[, cmp[, key[, reverse]]]）
```
（1）iterable：是可迭代类型类型;
（2）cmp：用于比较的函数，比较什么由key决定,有默认值，迭代集合中的一项;
（3）key：用列表元素的某个属性和函数进行作为关键字，有默认值，迭代集合中的一项;
（4）reverse：排序规则. reverse = True 或者 reverse = False，有默认值，默认为升序排列（False）。
返回值：是一个经过排序的可迭代类型，与iterable一样。一般来说，cmp和key可以使用lambda表达式。
如果对字典进行排序，常用的形式如下：sorted(dict.items(), key=lambda e:e[1], reverse=True)，其中e表示dict.items()中的一个元素，e[1]则表示按值排序如果把e[1]改成e[0]，那么则是按键排序，reverse=False可以省略，默认为升序排列。
说明：字典的items()函数返回的是一个列表，列表的每个元素是一个键和值组成的元组。因此，sorted(dict.items(), key=lambda e:e[1], reverse=True)返回的值同样是由元组组成的列表。

实现代码

#! /usr/local/bin/python3.6

 import sys
 
 # maps words to their counts
 word2count = {}
 
 # input comes from STDIN (standard input)
 for line in sys.stdin:
     no,passwd = line.strip().split(":")
     if passwd not in word2count:
         word2count[passwd] = 1
     else:
         word2count[passwd] += 1
 
 res=sorted(word2count.items(),key=lambda e:e[1],reverse=True)
 for item in res:
     print(item[0])

运行结果

[hadoop@master workspace]$ echo -e "ont:a\nasd:a\nsdfd:cc" |  ./wordcount.py 
a
cc

三、大数据思维

当然，这个问题也可以使用hadoop的mapreduce来解决。和wordcount经典程序差不多，只是reducer最后需要一个排序过程。

mapper.sh

#! /bin/sh

while read line 
do
    word=$(echo $line | awk -F ":" '{print $2}')
    #这里没有必要输出count，因为streaming好像并不会形成key-list
    echo -e "$word"
done

reducer.sh

#! /bin/sh

declare -A dict
while read word
do
    if [ -n dict[${word}] ];then
        ((dict[${word}]++))
    else
        dict[${word}]=1
    fi
done

for key in $(echo ${!dict[*]})
do
    echo -e "${dict[$key]}\t${key}" >> t
done
#排序
cat t | sort -k 1 -n

运行结果

[hadoop@master workspace]$ hadoop jar ../hadoop-2.7.3/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar -D mapreduce.job.reduces=1  -input input -output output3 -mapper mapper.sh -reducer reducer.sh -file mapper.sh -file reducer.sh
...
[hadoop@master workspace]$ hdfs dfs -cat output3/part-00000
1   001462
1   0016796001
1   010920
1   0114641641
4   btmu
4   btmuc
4   tgss
6   goodjob
7   yrz1001
8   123812

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,682评论 6赞 507
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,277评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,083评论 0赞 355
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,763评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,785评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,624评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,358评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,261评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,722评论 1赞 315
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,900评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,030评论 1赞 350
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,737评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,360评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,941评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,057评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,237评论 3赞 371
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,976评论 2赞 355

统计词频并按词频排序

一、背景描述

二、技术实现

三、大数据思维

推荐阅读更多精彩内容