分类算法

决策树

算法：
用一个属性划分数据集，可以产生分类更纯的子集。（不纯性度量）因此，不断划分，就能确定分类。
为了更有效地选择属性进行划分，以不纯性的增益or增益率来衡量。
~
特点：
a.以不纯性的增益or增益率来衡量，通常可以很好地选择属性，因此冗余属性通常不会对决策树的准确性造成影响。但不相关的属性很多，可能会被选中，影响决策树的准确性。
b.划分产生的决策边界是直线的，因此会限制了复杂关系了建模能力。可以采用“构造归纳”方法，提供一些由复杂模型构造的新属性。
c.分治划分策略，可能会产生子树重复的问题。
d.不断划分导致样本太小时，不能再进行有效的划分，“数据碎片”问题，可以当样本数小于某个特定的阈值停止分裂。
~
步骤：
一、对于特点a,b，需要对数据进行预处理，删除冗余属性，尝试构建新属性
二、对于特点c,d，需要在决策树归纳过程中处理，可以采用：
1.先剪枝：设定停止增加叶节点的条件：不纯性度量增益低于特定阈值等
2.后剪枝：用叶节点替换子树、用子树中最常使用的分支替换子树
三、模型外的措施：
1.多次重复建模，估计泛化误差：随机二次抽样、交叉验证、自助法...
2.比较多个模型进行选择：估计泛化误差的置信区间、比较两种分类法性能差异的显著性

基于规则的分类器

算法：
在相同的分类中，寻找规则，使之有较优的覆盖率和准确率。
～
规则评估：似然比统计量、laplace、m统计量、FOIL信息增益
RIPPER算法：
1.按类的频率对类进行排序，从最不频繁的类开始提取规则
2.从一般到特殊的策略进行规则增长，使用FOIL信息增益进行评估
3.以最小描述长度原则作为终止条件

最近邻分类器

消极学习算法（lazy learner）
算法：
当一个需要预测一个测试样例的时候，在训练集中找到相似的K个样例，以多数表决的方式进行预测。
也可以用，距离加权表决。
特点：
1.不需要建立模型，但分类测试样例的开销很大。
2.基于局部的信息进行预测，对噪声的非常敏感。
3.需要采用适当的邻近性度量和数据预处理，否则很可以做出错误的预测。

贝叶斯分类器

在条件X（属性X＝x1）成立的时，以某分类的频率，作为概率。
~
A.朴素贝叶斯分类器
P(Y|X) = P(X|Y)P(Y)/P(Y|X)
假设属性之间条件独立
P(Y|X) = P(Y)πP(Xi|Y)/P(X)
连续属性的条件概率：属性离散化、对于每一类，用高斯分布拟合
某些类属性样本较少，用m估计来估计条件概率，防止为0。
~
特征：
1.对孤立的噪声点，估计条件概率时这些点会被平均，朴素贝叶斯分类器是健壮的
2.对于无关属性，均匀分布不会影响条件概率
3.贝叶斯假设条件独立，相关属性会降低朴素贝叶斯分类器的

人工神经网络ANN

核心思想：
1.感知器：根据感知器的输出与目标的差异来更新输入链的权值
2.多层神经网络，能够近似任何函数，处理冗余特征，本质上是在构造复杂的特征，需要防止过拟合。
3.对噪声十分敏感，使用确认集来确定模型的泛化误差
4.经常收敛到局部最小值，在权值更新公式中加上一个动量项。

组合方法

核心思想：

分类算法

决策树

基于规则的分类器

最近邻分类器

贝叶斯分类器

人工神经网络ANN

组合方法

相关阅读更多精彩内容

友情链接更多精彩内容