240 投稿
收录了9篇文章 · 3人关注
  • Resize,w 360,h 240
    第七章:概率和朴素贝叶斯

    近邻算法又称为被动学习算法。这种算法只是将训练集的数据保存起来,在收到测试数据时才会进行计算。 贝叶斯算法则是一种主动学习算法,它会根据训练集构...

  • 第六章:优化近邻算法

    KNN 算法 k 近邻算法( kNN ):考察新记录周围距离最近的 k 条记录,而不是只看一条。 每个近邻都有投票权,程序会将新纪录判定为得票数...

  • 第五章:进一步探索分类

    训练集和测试集 通常我们将数据集分为两个部分,第一部分用来构造分类器,因此称为训练集;另一部分用来评估分类器的结果,因此称为测试集。 训练集和测...

  • 第四章:分类

    特征值选取 1、选择特征值 2、对特征值相关度进行评分 3、将数据进行标准化(最常用的方法时将所有数据都转化为 0 到 1 之间的值,或使用标准...

  • 第三章:Slope One算法

    Slope One 算法是在一篇名为《Slope One:基于在线评分系统的协同过滤算法》的论文中提出的,由 Lemire 和 Machlach...

  • 第二章:基于物品(模型)的协同过滤

    基于用户的协同过滤 基于用户的协同过滤又称为内存型协同过滤,需要将所有数据都保存在内存中进行计算;我们将一个用户和其他所有用户进行对比找到相似的...

  • 第一章:简单推荐算法

    找出相似用户 曼哈顿距离 最简单的距离计算方式; 在二维模型中,每个目标对象都可以用 (x, y) 的点来表示,我们可以用下标来表示不同的对象,...

  • Resize,w 360,h 240
    第九章 聚类

    聚类 通过物品特征来计算距离,并自动分类到不同的群集或组中。 层次聚类算法 对于层次聚类算法,我们不需要预先指定分类的数量,这个算方法会将每条数...

  • 第八章 朴素贝叶斯和文本数据

    非结构化文本的分类算法 如身高、体重、对法案的投票等。具有能用表格来展现 的共性的数据我们称为 “结构化数据” 。数据集中的每条数据(下表中的一...