1、常用分类算法的优缺点?
2、评价指标
1)正确率(accuracy) 正确率是我们最常见的评价指标,accuracy= (TP+TN)/(P+N),正确率是被分对的样本 数在所有样本数中的占比,通常来说,正确率越高,分类器越好。
2)错误率(errorrate) 错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一 个实例来说,分对与分错是互斥事件,所以 accuracy=1- errorrate。
3)灵敏度(sensitive) sensitive=TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力。
4)特效度(specificity) specificity=TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力。
5)精度(precision) 精度是精确性的度量,表示被分为正例的示例中实际为正例的比例, precision=TP/(TP+FP)。
6)召回率(recall) 召回率是覆盖面的度量,度量有多个正例被分为正例, recall=TP/(TP+FN)=TP/P=sensitive, 可以看到召回率与灵敏度是一样的。
7)其他评价指标
计算速度:分类器训练和预测需要的时间;
鲁棒性:处理缺失值和异常值的能力;
可扩展性:处理大数据集的能力;
可解释性:分类器的预测标准的可理解性,像决策树产生的规则就是很容易理解的,而神 经网络的一堆参数就不好理解,我们只好把它看成一个黑盒子。
8)查准率和查全率反映了分类器分类性能的两个方面。如果综合考虑查准率与查全率, 可以得到新的评价指标 F1 测试值,也称为综合分类率:
9)ROC 曲线和 PR 曲线
References [1] 李航. 统计学习方法[M]. 北京:清华大学出版社,2012.
3、理解局部最优和全局最优
优化问题一般分为局部最优和全局最优。
1)局部最优,就是在函数值空间的一个有限区域内寻找最小值;而全局最优,是在函数值空间整个区域寻找最小值问题。
2)函数局部最小点是那种它的函数值小于或等于附近点的点。但是有可能大于较远距离的点。
3)全局最小点是那种它的函数值小于或等于所有的可行点。
4、常见代价函数
5、为什么用交叉熵代替二次代价函数
6、常见的损失函数
7、逻辑回归为什么使用对数损失函数
8、对数损失函数是如何度量损失的
9、各种梯度下降法性能比较
10、 LDA 和 PCA 区别
LDA 优缺点
11、PCA 算法主要优缺点
12、模型评估
模型评估常用方法?
13、图解欠拟合、过拟合
14、 如何解决过拟合与欠拟合
15、查准率与查全率
16、常见的类别不平衡问题解决方法
防止类别不平衡对学习造成的影响,在构建分类模型之前,需要对分类不平衡性问题进行处理。主要解决方法有:
1、扩大数据集
增加包含小类样本数据的数据,更多的数据能得到更多的分布信息。
2、对大类数据欠采样
减少大类数据样本个数,使与小样本个数接近。 缺点:欠采样操作时若随机丢弃大类样本,可能会丢失重要信息。 代表算法:EasyEnsemble。利用集成学习机制,将大类划分为若干个集合供不同的学习器使用。相当于对每个学习器都进行了欠采样,但在全局来看却不会丢失重要信息。
3、对小类数据过采样
过采样:对小类的数据样本进行采样来增加小类的数据样本个数。 代表算法:SMOTE 和 ADASYN。 SMOTE:通过对训练集中的小类数据进行插值来产生额外的小类样本数据。 新的少数类样本产生的策略:对每个少数类样本 a,在 a 的最近邻中随机选一个样本 b, 然后在 a、b 之间的连线上随机选一点作为新合成的少数类样本。 ADASYN:根据学习难度的不同,对不同的少数类别的样本使用加权分布,对于难以学习的少数类的样本,产生更多的综合数据。 通过减少类不平衡引入的偏差和将分类决策边界自适应地转移到困难的样本两种手段,改善了数据分布。
4、使用新评价指标
如果当前评价指标不适用,则应寻找其他具有说服力的评价指标。比如准确度这个评价指标在类别不均衡的分类任务中并不适用,甚至进行误导。因此在类别不均衡分类任务中,需要使用更有说服力的评价指标来对分类器进行评价。
5、选择新算法
不同的算法适用于不同的任务与数据,应该使用不同的算法进行比较。
6、数据代价加权
例如当分类任务是识别小类,那么可以对分类器的小类样本数据增加权值,降低大类样本的权值,从而使得分类器将重点集中在小类样本身上。
7、转化问题思考角度
例如在分类问题时,把小类的样本作为异常点,将问题转化为异常点检测或变化趋势检测问题。 异常点检测即是对那些罕见事件进行识别。变化趋势检测区别于异常点检测在于其通过检测不寻常的变化趋势来识别。
8、将问题细化分析
对问题进行分析与挖掘,将问题划分成多个更小的问题,看这些小问题是否更容易解决。
17、决策树
(1)决策树的基本原理
决策树是一种分而治之(DivideandConquer)的决策过程。一个困难的预测问题, 通过树的分支节点, 被划分成两个或多个较为简单的子集,从结构上划分为不同的子问题。将依规则分割数据集的过程不断递归下去(RecursivePartitioning)。随着树的深度不断增加,分支节点的子 集越来越小,所需要提的问题数也逐渐简化。当分支节点的深度或者问题的简单程度满足一定 的停止规则(Stopping Rule)时, 该分支节点会停止劈分,此为自上而下的停止阈值(Cutoff Threshold)法;有些决策树也使用自下而上的剪枝(Pruning)法。
(2)决策树的三要素
一棵决策树的生成过程主要分为以下 3 个部分:
特征选择:从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择 特征有着很多不同量化评估标准,从而衍生出不同的决策树算法。
决策树生成:根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。树结构来说,递归结构是最容易理解的方式。
剪枝:决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。
(3)决策树算法优缺点
决策树算法的优点:
1、理解和解释起来简单,决策树模型易想象。
2、相比于其他算法需要大量数据集而已,决策树算法要求的数据集不大。
3、决策树算法的时间复杂度较小,为用于训练决策树的数据点的对数。
4、相比于其他算法智能分析一种类型变量,决策树算法可处理数字和数据的类别。
5、能够处理多输出的问题。
6、对缺失值不敏感。
7、可以处理不相关特征数据。
8、效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策 树的深度。
决策树算法的缺点:
1、对连续性的字段比较难预测。
2、容易出现过拟合。
3、当类别太多时,错误可能就会增加的比较快。
4、信息缺失时处理起来比较困难,忽略了数据集中属性之间的相关性。
5、在处理特征关联性比较强的数据时表现得不是太好。
6、对于各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。