近邻算法又称为被动学习算法。这种算法只是将训练集的数据保存起来,在收到测试数据时才会进行计算。 贝叶斯算法则是一种主动学习算法,它会根据训练集构...
收录了9篇文章 · 3人关注
近邻算法又称为被动学习算法。这种算法只是将训练集的数据保存起来,在收到测试数据时才会进行计算。 贝叶斯算法则是一种主动学习算法,它会根据训练集构...
KNN 算法 k 近邻算法( kNN ):考察新记录周围距离最近的 k 条记录,而不是只看一条。 每个近邻都有投票权,程序会将新纪录判定为得票数...
训练集和测试集 通常我们将数据集分为两个部分,第一部分用来构造分类器,因此称为训练集;另一部分用来评估分类器的结果,因此称为测试集。 训练集和测...
特征值选取 1、选择特征值 2、对特征值相关度进行评分 3、将数据进行标准化(最常用的方法时将所有数据都转化为 0 到 1 之间的值,或使用标准...
Slope One 算法是在一篇名为《Slope One:基于在线评分系统的协同过滤算法》的论文中提出的,由 Lemire 和 Machlach...
基于用户的协同过滤 基于用户的协同过滤又称为内存型协同过滤,需要将所有数据都保存在内存中进行计算;我们将一个用户和其他所有用户进行对比找到相似的...
找出相似用户 曼哈顿距离 最简单的距离计算方式; 在二维模型中,每个目标对象都可以用 (x, y) 的点来表示,我们可以用下标来表示不同的对象,...
聚类 通过物品特征来计算距离,并自动分类到不同的群集或组中。 层次聚类算法 对于层次聚类算法,我们不需要预先指定分类的数量,这个算方法会将每条数...
非结构化文本的分类算法 如身高、体重、对法案的投票等。具有能用表格来展现 的共性的数据我们称为 “结构化数据” 。数据集中的每条数据(下表中的一...