1.支持度(Support) 其中,I表示总事务集。num()表示求事务集里特定项集出现的次数。 2.置信度 (Confidence) 置信度表...
浅谈p值(p-value是什么) 当我们说到p-value时,我们在说什么? “这个变量的p-value小于0.05,所以这个变量很重要” .....
数据质量:准确性,完整性,时效性,一致性,可信性,可解释性 数据清理:填写缺失值,光滑噪声数据,识别或删除离群点1,缺失值 2,光滑2.1,分箱...
Mahout 使用的算法 欧氏距离相似度:利用欧氏距离定义的相似度,取值范围在[0,1],其值越小,说明距离越近,相似度越高。 余弦相似度:和向...
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚...
数据对象与属性类型 属性 1)标称属性 2)二元属性(布尔属性 true or false) 3)序数属性值之间具有有意义的序或级别评定(ran...
推荐系统属性: 系统角色 系统角色抽象来看,推荐系统中一般有四个重要的角色:用户:用户是系统的使用者物品:物品就是将要被推荐的候选对象情景:情景...
数据类型 1)关系型数据库2)数据仓库: 称为 数据立方体. 3)事务数据一次事务作为一条数据,例如:一次购物,一次航班订票,一次用户网页点击 ...
搜索引擎、推荐系统和在线广告 布尔模型 总体上来看,布尔模型的优点是简单易懂,系统实现的成本也较低。不过,它的弱点就是对相关性的刻画不足。相关与...