机器学习第三章线性模型学习笔记

线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记.

线性模型的基本形式为f(x) = ω1 X 1 + ω2 X 2 十 ...+ωdXd + b  各属性的取值加权后的总和(一维,某一属性取值有序关系(可比较,如高度,体积))

向量形式为f(x) = ωTx+b x为代表各属性向量构成的矩阵(二维及以上,某一属性取值无序关系(不可比较,如颜色))(描述某一属性需要的数值不止一个,其加权值也由向量组构成)

回归学习

以训练集的属性值和标志值为x和y 通过最小二乘法(求解w和b使真实值和预测值的方差最小化的过程)(试图 找到一条直线,使所有样本到直线上的欧氏距离之和最小.))确定线性回归的参数。

令模型预测值逼近y的衍生物lny得到对数线性回归模型。假设我们 认为 示例所对应的输 出标记是在指数尺度上变化,那就可将输出标记的对数作为线性模型逼近的目 标。(如果属性对示例的影响是使示例在指数尺度上变化,我们可以构造一个逼近标记对数的线性模型)

分类学习

二分类学习

对数几率回归

将输出标记的范围确定在0到1之间,用一个函数使预测值变成0到1之间的输出标志。


图片发自简书App



图片发自简书App

若将 u 视为样本 z 作为正例的可能性,则 1-y 是其反例可能性

由此可看出,实际上是在用线性回归模型的预测结果去逼近 真实标记的对数几率,因此,其对应的模型称为"对数几率回归"

将y视为类验后概率估计,可得到关于线性模型的等价表达式,再用极大似然法变形表达式,最终得到最优解


图片发自简书App


β= (ω; b)X = (x; 1) , 则 wTx +b 可简写为 βTx

线性判别分析

分析连续自变量和类别因变量

给定训练样例 集,设 法找到一个投影矩阵将样例投影到 一条直 线 上, 使得同类样例的投影点尽可能接近、 异类样例 的投影点尽可能远离;在对新样本进行分类时,将其投影到 同样的这条直线上,再根据投影点的位置来确定新 样本的类别


图片发自简书App



J为类内样例投影点的协方差异类样例投影点的均值的比值,投影矩阵w使该比值最大时,可达到最优分类。

解得

图片发自简书App

W 为分类器需要的投影矩阵

多分类学习

拆解法,即将多分类任务拆为若干个二分类任务求解.

为拆出的每个二分类任务训练一个分类器;

关键是如何对多分 类任务进行拆分

OvO :对要分成的n个类别进行两两配对,从而产生n(n-1)/2个二分类任务,每个任务拥有一个分类器,依次对一个新样本进行分类,将最终得到的结果统计,得到次数最多则为最终分类结果

OvR :对要分成的n个类别,每次划分为一个类别 和 打包其余所有类别 两个类别,从而产生n个任务,预测结果表示为是正类和不是正类,若所有结果中只有一个是是正类,则对应的类别为最终分类结果。

OvO 两个两个判断是哪个 分类任务是是两类中的那一类

OvR 依次判断是不是 分类任务是是这一类还是其他类

图片发自简书App

开销:OvO由于测试时要进行的分类任务多 所以测试时间开销大 ,但训练每个分类器仅用两个样例(OvR每次都要用到所有样例)所以训练时间开销小

MvM 是每次将若干个类作为正类,若干个其他类作为反类.显然, OvO 和 OvR 是 MvM 的特例. MvM 的正、反类构造必须有特殊的设计,不能随意选 取.

最常用的MvM 技术:纠错输出码(由于该编码对分类器的错误有一定容忍和修正力而得名)

图片发自简书App


每个类别有各自的编码 ,将所有分类任务的结果组成一个编码,再与每个类别的编码比较,距离最小的类别为最终预测结果。

类别不平衡问题(数量不平衡)

如果正反例的训练样本差别很大,则如果学习器永远将新样本预测为样本书数大的那一类,就能达到高精度,但只能预测一类的学习器没有价值。

即使原始问题中不同类别的训练样例数目相当 ,在使 用 OvR、 MvM策略后产生的二分类任务仍可能出现类别不平衡现象。

解决类别不平衡问题的方法

1、欠采样(去除 一些反倒使得正、反例数日接近)代表性算法为利用集成学习机制,将反例划分为若干个集合供不同的学习器使用,这样总体来看并没有丢失重要信息。

2、过采样(增加一些正例使得正、反例数目接近)代表性算法是通过对训练集里的正例进行插值来产生额外的正例.

3、阈值移动 将再缩放嵌入到决策过程中

总结

基于线性模型的基本形式用最小二乘法估计参数

分类相比回归更复杂,回归只需用线性模型得到预测值,而分类还需得到确定的类别

分类方法有两种

  一种由回归模型得到一定范围(0-1)内的输出标志,用以凭借特定数值(0.5)分类

  一种用一个投影矩阵投影得到一条直线上的两个区域以分类

把普通线性模型变为逼近对数几率的线性模型,就得到二分类的线性模型

线性判别分析可以进行二分类学习,也可以进行多分类学习

多分类就是把分类任务变成多个二分类任务,分别有一对一,一对多,多对多三种方法

而这样的分类方法存在类别不平衡问题,可以通过过采样欠采样和阈值移动进行修正

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,657评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,889评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,057评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,509评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,562评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,443评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,251评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,129评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,561评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,779评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,902评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,621评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,220评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,838评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,971评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,025评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,843评论 2 354

推荐阅读更多精彩内容