数据挖掘 - 专题

投稿

数据挖掘

收录了9篇文章 · 3人关注

第七章：概率和朴素贝叶斯
近邻算法又称为被动学习算法。这种算法只是将训练集的数据保存起来，在收到测试数据时才会进行计算。贝叶斯算法则是一种主动学习算法，它会根据训练集构...

无赖宵小 0 0
第六章：优化近邻算法
KNN 算法 k 近邻算法（ kNN ）：考察新记录周围距离最近的 k 条记录，而不是只看一条。每个近邻都有投票权，程序会将新纪录判定为得票数...

无赖宵小 0 0

第五章：进一步探索分类
训练集和测试集通常我们将数据集分为两个部分，第一部分用来构造分类器，因此称为训练集；另一部分用来评估分类器的结果，因此称为测试集。训练集和测...

无赖宵小 0 0
第四章：分类
特征值选取 1、选择特征值 2、对特征值相关度进行评分 3、将数据进行标准化（最常用的方法时将所有数据都转化为 0 到 1 之间的值，或使用标准...

无赖宵小 0 0
第三章：Slope One算法
Slope One 算法是在一篇名为《Slope One：基于在线评分系统的协同过滤算法》的论文中提出的，由 Lemire 和 Machlach...

0.1 无赖宵小 0 1
第二章：基于物品（模型）的协同过滤
基于用户的协同过滤基于用户的协同过滤又称为内存型协同过滤，需要将所有数据都保存在内存中进行计算；我们将一个用户和其他所有用户进行对比找到相似的...

无赖宵小 0 0
第一章：简单推荐算法
找出相似用户曼哈顿距离最简单的距离计算方式；在二维模型中，每个目标对象都可以用 (x, y) 的点来表示，我们可以用下标来表示不同的对象，...

0.1 无赖宵小 0 1

第九章聚类
聚类通过物品特征来计算距离，并自动分类到不同的群集或组中。层次聚类算法对于层次聚类算法，我们不需要预先指定分类的数量，这个算方法会将每条数...

无赖宵小 0 0
第八章朴素贝叶斯和文本数据
非结构化文本的分类算法如身高、体重、对法案的投票等。具有能用表格来展现的共性的数据我们称为 “结构化数据” 。数据集中的每条数据（下表中的一...

无赖宵小 0 0