线性回归
线性模型不仅简单,而且用途广泛,是很多复杂模型的基础。我想这也符合人的认知:线性就是一种趋势,更高或更低的值往往反映出结果是更好还是更坏。因此,无论是加入更多自变量的多元线性回归,还是推广到更一般场景中的广义线性回归,内核都是线性。
对数几率回归与线性判别分析
两者都是二分类的方法,对数几率回归将线性回归的结果投射到sigmoid函数上,通过设定的阈值判断类别;线性判别分析将样本投影到一条直线,使不同类别样本在直线上距离尽可能远,同类别则尽可能近,新样本根据投影位置判断类别。对数几率回归用最大似然估计确定模型参数,线性判别分析通过最大化类间距离与类内距离的比值确定参数。
书上的公式要推导一遍吗?
多分类学习
这里主要介绍利用二分类学习器解决多分类问题。其本质就是构造多个二分类学习器,然后综合各个学习器的结果对新样本分类。常用的构造策略有三种,“一对一”、“一对其余”、“多对多”,具体用到时再展开。
类别不平衡问题
类别不平衡在很多场景中都存在,如分类模型的训练,以及ROC分析,都要考虑到这种不平衡。基于“训练样本是真实样本总体的无偏采样”这个假设是否满足,有不同的处理方式:满足假设,则根据正、反例数目的比值调整阈值,称为“再缩放”;不满足假设,则需要调整训练集中正、反例样本的数目,使其尽可能接近。常用调整方法有欠采样(去掉一部分较多的类别)、过采样(通过拟合等手段加入一部分较少的类别)和阈值移动(直接用原始样本训练,把阈值调整步骤放到实际应用时)。