1.1 数据挖掘的定义与应用
什么是数据挖掘,目前数据挖掘的定义仍然有着不同的理解,绝大部分人公认的定义是:从数据中获取知识。
数据挖掘利用了来自如下领域的思想:
(1)来自统计学的抽样、估计和假设检验。
(2)人工智能、模式识别和机器学习的搜索算法、建模分析和学习理论。
1.2 数据挖掘的第一个里程碑
1.C4.5算法
分类问题算法,C4.5的目标是通过学习,找到1个从属性值到类别值得映射关系,并且这个映射
能用于对新的未知类别进行分类。
C4.5算法核心是ID3,只是做了以下改进:
(1).用信息增益率来选择属性 (2)在构建决策树中剪枝
(3)能够完成对连续属性的离散化处理 (4)能够对不完整数据进行处理
2.K-Means算法
是一种聚类算法,试图找到数据中自然聚类中心。
3.Support Vector Machines(SVM支持向量机)
应用于分类与回归分析中,将向量映射到一个更高的维度空间中,在这个空间建立一个最大间隔的超平面
4.The Apriori Algorithm(Apriori 算法)
Apriori算法是一种最具有影响力的挖掘布尔关联规则频繁项集的算法。在这里,所有支持度大于最小支持度的项集都称为频繁项集。
5.最大期望(EM)算法
最大期望(Expectation-Maximization,EX)算法是在概率模型中寻找参数最大似然估计的算法。
6.AdaBoost 增强型算法
是一种迭代算法,其核心思想就是针对同一个训练集训练成不同的分类器,然后把这些弱分类器集合起来,构成一个更强的最终分类器。