Avatar notebook default
22篇文章 · 19220字 · 1人关注
  • Resize,w 360,h 240
    用PCA简化数据

    概述 优点:降低数据的复杂性,识别最重要的多个特征 缺点:不一定需要,且可能损失有用信息 适用数据类型:数值型数据 数据维度 这是一个二维数据,...

    2.9 594 2 10
  • Resize,w 360,h 240
    用FP-growth算法发现频繁项集(二)

    从FP树中挖掘频繁项集 从FP树中抽取频繁项集的三个基本步骤如下: 从FP树中获得条件模式基 利用条件模式基,构建一个条件FP树 重复步骤1、2...

  • Resize,w 360,h 240
    用FP-growth算法发现频繁项集(一)

    概述 优点:一般要快于Apriori 缺点:实现比较困难,在某些数据集上性能会下降 适用数据类型:标称型数据 FP-growth算法将数据存储在...

  • Resize,w 360,h 240
    使用Apriori算法进行关联分析(二)

    从频繁项集中挖掘关联规则 频繁项集有其量化定义,即它满足最小支持度要求。对于关联规则,也有类似的量化方法,这种量化指标称为可信度。一条规则P -...

    1.2 738 9 3 1
  • Resize,w 360,h 240
    使用Apriori算法进行关联分析(一)

    概述 优点:易编码实现 缺点:在大数据集上可能较慢 适用数据类型:数值型或标称型数据 关联分析 从大规模数据集中寻找物品间的隐含关系被称作关联分...

  • Resize,w 360,h 240
    利用K-均值聚类算法对未标注数据分组(二)

    二分K-均值算法 为了解决K-均值算法收敛于局部最小值的问题,有人提出了二分K-均值的算法。首先,将整个数据集作为一个簇,然后将该簇一分为二。之...

  • Resize,w 360,h 240
    利用K-均值聚类算法对未标注数据分组(一)

    概述 优点:容易实现 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢 适用数据类型:数值型数据 聚类是一种无监督学习,将相似的对象归到一个...

    0.6 425 2 3 1
  • Resize,w 360,h 240
    树回归(三)

    模型树 观察下图的数据分布,很容易发现可以用两条直线来拟合数据,0.0 ~ 0.3是一条直线,0.3 ~ 1.0是一条直线,可以得到两个线性模型...

  • Resize,w 360,h 240
    树回归(二)

    树剪枝 一棵树如果节点过多,说明该模型存在过拟合问题。 通过降低决策树的复杂度来避免过拟合的过程称为剪枝(pruning)。树回归(一)中的ch...

文集作者