机器学习 - 文集

概述优点：降低数据的复杂性，识别最重要的多个特征缺点：不一定需要，且可能损失有用信息适用数据类型：数值型数据数据维度这是一个二维数据，...

2.9 632 2 10

从FP树中挖掘频繁项集从FP树中抽取频繁项集的三个基本步骤如下：从FP树中获得条件模式基利用条件模式基，构建一个条件FP树重复步骤1、2...

0.5 1682 0 3

概述优点：一般要快于Apriori 缺点：实现比较困难，在某些数据集上性能会下降适用数据类型：标称型数据 FP-growth算法将数据存储在...

1.1 1755 0 3

从频繁项集中挖掘关联规则频繁项集有其量化定义，即它满足最小支持度要求。对于关联规则，也有类似的量化方法，这种量化指标称为可信度。一条规则P -...

1.2 803 9 3 1

概述优点：易编码实现缺点：在大数据集上可能较慢适用数据类型：数值型或标称型数据关联分析从大规模数据集中寻找物品间的隐含关系被称作关联分...

1.3 819 4 6

二分K-均值算法为了解决K-均值算法收敛于局部最小值的问题，有人提出了二分K-均值的算法。首先，将整个数据集作为一个簇，然后将该簇一分为二。之...

2.3 436 3 8

概述优点：容易实现缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢适用数据类型：数值型数据聚类是一种无监督学习，将相似的对象归到一个...

0.6 470 2 3 1

模型树观察下图的数据分布，很容易发现可以用两条直线来拟合数据，0.0 ~ 0.3是一条直线，0.3 ~ 1.0是一条直线，可以得到两个线性模型...

1.5 342 0 7

树剪枝一棵树如果节点过多，说明该模型存在过拟合问题。通过降低决策树的复杂度来避免过拟合的过程称为剪枝（pruning）。树回归（一）中的ch...

0.4 249 0 2