线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记.
线性模型的基本形式为f(x) = ω1 X 1 + ω2 X 2 十 ...+ωdXd + b 各属性的取值加权后的总和(一维,某一属性取值有序关系(可比较,如高度,体积))
向量形式为f(x) = ωTx+b x为代表各属性向量构成的矩阵(二维及以上,某一属性取值无序关系(不可比较,如颜色))(描述某一属性需要的数值不止一个,其加权值也由向量组构成)
回归学习
以训练集的属性值和标志值为x和y 通过最小二乘法(求解w和b使真实值和预测值的方差最小化的过程)(试图 找到一条直线,使所有样本到直线上的欧氏距离之和最小.))确定线性回归的参数。
令模型预测值逼近y的衍生物lny得到对数线性回归模型。假设我们 认为 示例所对应的输 出标记是在指数尺度上变化,那就可将输出标记的对数作为线性模型逼近的目 标。(如果属性对示例的影响是使示例在指数尺度上变化,我们可以构造一个逼近标记对数的线性模型)
分类学习
二分类学习
对数几率回归
将输出标记的范围确定在0到1之间,用一个函数使预测值变成0到1之间的输出标志。
若将 u 视为样本 z 作为正例的可能性,则 1-y 是其反例可能性
由此可看出,实际上是在用线性回归模型的预测结果去逼近 真实标记的对数几率,因此,其对应的模型称为"对数几率回归"
将y视为类验后概率估计,可得到关于线性模型的等价表达式,再用极大似然法变形表达式,最终得到最优解
β= (ω; b)X = (x; 1) , 则 wTx +b 可简写为 βTx
线性判别分析
分析连续自变量和类别因变量
给定训练样例 集,设 法找到一个投影矩阵将样例投影到 一条直 线 上, 使得同类样例的投影点尽可能接近、 异类样例 的投影点尽可能远离;在对新样本进行分类时,将其投影到 同样的这条直线上,再根据投影点的位置来确定新 样本的类别
J为类内样例投影点的协方差和异类样例投影点的均值的比值,投影矩阵w使该比值最大时,可达到最优分类。
解得
W 为分类器需要的投影矩阵
多分类学习
拆解法,即将多分类任务拆为若干个二分类任务求解.
为拆出的每个二分类任务训练一个分类器;
关键是如何对多分 类任务进行拆分
OvO :对要分成的n个类别进行两两配对,从而产生n(n-1)/2个二分类任务,每个任务拥有一个分类器,依次对一个新样本进行分类,将最终得到的结果统计,得到次数最多则为最终分类结果
OvR :对要分成的n个类别,每次划分为一个类别 和 打包其余所有类别 两个类别,从而产生n个任务,预测结果表示为是正类和不是正类,若所有结果中只有一个是是正类,则对应的类别为最终分类结果。
OvO 两个两个判断是哪个 分类任务是是两类中的那一类
OvR 依次判断是不是 分类任务是是这一类还是其他类
开销:OvO由于测试时要进行的分类任务多 所以测试时间开销大 ,但训练每个分类器仅用两个样例(OvR每次都要用到所有样例)所以训练时间开销小
MvM 是每次将若干个类作为正类,若干个其他类作为反类.显然, OvO 和 OvR 是 MvM 的特例. MvM 的正、反类构造必须有特殊的设计,不能随意选 取.
最常用的MvM 技术:纠错输出码(由于该编码对分类器的错误有一定容忍和修正力而得名)
每个类别有各自的编码 ,将所有分类任务的结果组成一个编码,再与每个类别的编码比较,距离最小的类别为最终预测结果。
类别不平衡问题(数量不平衡)
如果正反例的训练样本差别很大,则如果学习器永远将新样本预测为样本书数大的那一类,就能达到高精度,但只能预测一类的学习器没有价值。
即使原始问题中不同类别的训练样例数目相当 ,在使 用 OvR、 MvM策略后产生的二分类任务仍可能出现类别不平衡现象。
解决类别不平衡问题的方法
1、欠采样(去除 一些反倒使得正、反例数日接近)代表性算法为利用集成学习机制,将反例划分为若干个集合供不同的学习器使用,这样总体来看并没有丢失重要信息。
2、过采样(增加一些正例使得正、反例数目接近)代表性算法是通过对训练集里的正例进行插值来产生额外的正例.
3、阈值移动 将再缩放嵌入到决策过程中
总结
基于线性模型的基本形式用最小二乘法估计参数
分类相比回归更复杂,回归只需用线性模型得到预测值,而分类还需得到确定的类别
分类方法有两种
一种由回归模型得到一定范围(0-1)内的输出标志,用以凭借特定数值(0.5)分类
一种用一个投影矩阵投影得到一条直线上的两个区域以分类
把普通线性模型变为逼近对数几率的线性模型,就得到二分类的线性模型
线性判别分析可以进行二分类学习,也可以进行多分类学习
多分类就是把分类任务变成多个二分类任务,分别有一对一,一对多,多对多三种方法
而这样的分类方法存在类别不平衡问题,可以通过过采样欠采样和阈值移动进行修正