使用hive 实现WordCount 计数


启动Hive

启动hive

2.建表


建表

3.导入数据


导入数据

4.查询:


查看wordcount 表

至此,数据导入完成。我原先以为做单词统计,这一张表就可以,但是我发现非常的困难,到这个地步就不能在用Hadoop里的MR来思维了,应该用RMDS的思维来解决这个问题,所以我又新建了一张表,叫words,用来存储分割字符串后的单词。

6.新建words表


建表

7对words表进行格式上的处理执行下列语句

insert overwrite table wordsselect explode(split(word,'[ \t]+')) wordfrom wordcount;         explode是hive的函数,在以后的深入学会了解到。

对表行一个处理,即遇到一个“\t”自动切分

words表中的格式

8.使用HQL语句查询words表

select word ,count(*) from   words group by word


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容