聚合
mongo的产生背景是大数据环境,所谓的大数据实际上也就是进行的信息的收集汇总.那么就必须存在有信息的统计操作,而这样的统计操作就是成为聚合( 分组统计就是一种聚合操作)
1.取得集合的数据量
对于集合的数据量而言,在mongo里面直接使用count() 函数就可以完成.
db.shop.count()
在进行信息查询的时候,不设置条件的查询永远要比设置条件 要快的多,也就是说在之前的代码编写里面 不管是查询全部 或者是模糊查询, 实际上都是用的模糊查询, 只不过是一个是不设置关键字
2.消除重复数据
查询所有name 的信息 ( distinct() ) 消除重复数据
db.infos.runCommand({"distinct":"infos","key":"name"})
- 本次的操作没有直接的函数支持,只能利用 runCommand()
- 辞职实现了对于name数据的重复值的筛选 ( 操作意义不是很大 )
3.group 操作 (随便看看 这是低版本的 )
可以实现市局的分组操作,在mongo里面会将集合依据指定的key的不同进行分组操作,并且每一个组都会产生一个处理的文档结果
-
查询所有age > = 19的信息,并且按年龄分组
db.runCommand({"group":{ "ns":"infos", //查询的集合 "key":{"age":true}, // 查询哪个字段 "initial":{"count":0}, // 初始化统计 "conditin":{"age":{"$gte":19}}, //查询条件 "$reduce": function(doc.prev){ prev.count++ } }})
4.真正的聚合 MapReduce
MapReduce是整个大数据的精髓所在,(实际中别用),所谓的MapReduce就是分为部处理我们的数据
Map 将数据分别取出
-
Reduce 负责数据的最后的处理
可是要想在Mongo里面实现MapReduce处理 那么复杂度是相当高的var emps = [ {name:"jsbin",sex:'男',jop:"CLEE",salary:1000,age:22}, {name:"jspang",sex:'男',jop:"CLEE",salary:2000,age:24}, {name:"jsg",sex:'男',jop:"CLEE",salary:3000,age:26}, {name:"javas",sex:'男',jop:"CLEE",salary:4000,age:30}, {name:"javas",sex:'男',jop:"CLEE",salary:5000,age:33}, ] db.emps.insert(emps)
按照职位分组,取得每个职位的人名
-
编写分组的定义
var jobMapFun = function(){ emit(this.job,this.name) }
编写Reduce 处理
不写了 太复杂了 但是是可以 简化的 可以是聚合框架
聚合框架
1 . $group 主要是进行分组的数据操作 ( 实现聚合 查询的功能 )
语法:
db.emps.aggregate([{"$group":{"_id":"$job","jobCount":{"$sum":1}}}])