概述 优点:降低数据的复杂性,识别最重要的多个特征 缺点:不一定需要,且可能损失有用信息 适用数据类型:数值型数据 数据维度 这是一个二维数据,...
从FP树中挖掘频繁项集 从FP树中抽取频繁项集的三个基本步骤如下: 从FP树中获得条件模式基 利用条件模式基,构建一个条件FP树 重复步骤1、2...
概述 优点:一般要快于Apriori 缺点:实现比较困难,在某些数据集上性能会下降 适用数据类型:标称型数据 FP-growth算法将数据存储在...
从频繁项集中挖掘关联规则 频繁项集有其量化定义,即它满足最小支持度要求。对于关联规则,也有类似的量化方法,这种量化指标称为可信度。一条规则P -...
概述 优点:易编码实现 缺点:在大数据集上可能较慢 适用数据类型:数值型或标称型数据 关联分析 从大规模数据集中寻找物品间的隐含关系被称作关联分...
二分K-均值算法 为了解决K-均值算法收敛于局部最小值的问题,有人提出了二分K-均值的算法。首先,将整个数据集作为一个簇,然后将该簇一分为二。之...
概述 优点:容易实现 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢 适用数据类型:数值型数据 聚类是一种无监督学习,将相似的对象归到一个...
模型树 观察下图的数据分布,很容易发现可以用两条直线来拟合数据,0.0 ~ 0.3是一条直线,0.3 ~ 1.0是一条直线,可以得到两个线性模型...
树剪枝 一棵树如果节点过多,说明该模型存在过拟合问题。 通过降低决策树的复杂度来避免过拟合的过程称为剪枝(pruning)。树回归(一)中的ch...
文集作者