lerna 概要 lerna是GitHub上面开源的一款js代码库管理软件, 用来对一系列相互耦合比较大、又相互独立的js git库进行管理。解决各个库之间修改混乱、难以跟踪...
![240](https://upload.jianshu.io/users/upload_avatars/23189635/03934c15-e4e0-47f0-af6d-27b9c1c005f7.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
lerna 概要 lerna是GitHub上面开源的一款js代码库管理软件, 用来对一系列相互耦合比较大、又相互独立的js git库进行管理。解决各个库之间修改混乱、难以跟踪...
1.支持度(Support) 其中,I表示总事务集。num()表示求事务集里特定项集出现的次数。 2.置信度 (Confidence) 置信度表示在先决条件X发生的情况下,由...
浅谈p值(p-value是什么) 当我们说到p-value时,我们在说什么? “这个变量的p-value小于0.05,所以这个变量很重要” ........ 你真的知道自己在...
数据质量:准确性,完整性,时效性,一致性,可信性,可解释性 数据清理:填写缺失值,光滑噪声数据,识别或删除离群点1,缺失值 2,光滑2.1,分箱 2.2,回归 2.3,离群点...
Mahout 使用的算法 欧氏距离相似度:利用欧氏距离定义的相似度,取值范围在[0,1],其值越小,说明距离越近,相似度越高。 余弦相似度:和向量空间模型(VSM)类似,利用...
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和...
数据对象与属性类型 属性 1)标称属性 2)二元属性(布尔属性 true or false) 3)序数属性值之间具有有意义的序或级别评定(ranking)例如:小,中,大 或...
推荐系统属性: 系统角色 系统角色抽象来看,推荐系统中一般有四个重要的角色:用户:用户是系统的使用者物品:物品就是将要被推荐的候选对象情景:情景是推荐时所处的环境匹配引擎:而...
数据类型 1)关系型数据库2)数据仓库: 称为 数据立方体. 3)事务数据一次事务作为一条数据,例如:一次购物,一次航班订票,一次用户网页点击 4)其他类型的数据时间相关或序...
搜索引擎、推荐系统和在线广告 布尔模型 总体上来看,布尔模型的优点是简单易懂,系统实现的成本也较低。不过,它的弱点就是对相关性的刻画不足。相关与否是个模糊的概念,有的文章和查...
版本1 版本2
实时性比较 在线实时处理 > 消息机制(增量处理) > 全量批处理 Storm 首先来理解Storm体系中的一些重要概念和含义,包括元组(Tuple)、数据流(Stream...
基于 发布/订阅 设计模式按需生产,降低成本,提高效率 JMS(Java Message Service) Sun及其伙伴公司提出了Java消息服务JMS(Java Mess...
spark Spark是加州大学伯克利分校AMP实验室所开源的类HadoopMapReduce的通用并行框架,拥有类似Hadoop MapReduce的并行处理模式。不同于M...
1)按照Hadoop公司的品质定义,鉴定水源的等级,分为1等、2等、3等和4等。1等水最优,4等水最次。2)按照鉴定的等级,将4种水源用于不同类型的饮料生产。1等水用于生产纯...
缓存和散列 缓存(Cache)可以被看作计算机系统的伟大发明之一,它的应用在该领域中是普遍存在的。小到计算机的中央处理器(CPU)、主板、显卡等硬件,大到大规模的互联网站点,...
数据模型:HBase的数据模型和关系型的二维表非常相似,其灵活性体现在列式存储上,它对列(或者说属性、字段)的定义没有严格要求,而且可以通过超多的列族来构建一个超宽的表格,代...
Google文件系统GFS来提供分布式数据存储,类似地,HBase是在Hadoop的HDFS基础之上提供了Bigtable的能力。Hadoop和Database两个英文单词的...
增加协调部门:协同部门可以实时收集各个仓库的运作情况,并决策将进货存放在哪里更为合适。 命名节点(Name Node) 在HDFS中,扮演这个角色的节点称为命名节点(Name...
Apache Flume Flume的核心模块有三个:源头(Source):负责接收数据的模块,它定义了数据的源头,从源头收集数据,传递给通道。源头还可用于接收其他Flume...