机器学习第三章线性模型学习笔记

线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记.

线性模型的基本形式为f(x) = ω1 X 1 + ω2 X 2 十 ...+ωdXd + b 各属性的取值加权后的总和（一维，某一属性取值有序关系（可比较，如高度，体积））

向量形式为f(x) = ωTx+b x为代表各属性向量构成的矩阵（二维及以上，某一属性取值无序关系（不可比较，如颜色）)（描述某一属性需要的数值不止一个，其加权值也由向量组构成）

回归学习

以训练集的属性值和标志值为x和y 通过最小二乘法（求解w和b使真实值和预测值的方差最小化的过程）（试图找到一条直线，使所有样本到直线上的欧氏距离之和最小.））确定线性回归的参数。

令模型预测值逼近y的衍生物lny得到对数线性回归模型。假设我们认为示例所对应的输出标记是在指数尺度上变化，那就可将输出标记的对数作为线性模型逼近的目标。（如果属性对示例的影响是使示例在指数尺度上变化，我们可以构造一个逼近标记对数的线性模型）

分类学习

二分类学习

对数几率回归

将输出标记的范围确定在0到1之间，用一个函数使预测值变成0到1之间的输出标志。

图片发自简书App

若将 u 视为样本 z 作为正例的可能性，则 1-y 是其反例可能性

由此可看出，实际上是在用线性回归模型的预测结果去逼近真实标记的对数几率，因此，其对应的模型称为"对数几率回归"

将y视为类验后概率估计，可得到关于线性模型的等价表达式，再用极大似然法变形表达式，最终得到最优解

图片发自简书App

β= (ω; b)X = (x; 1) ，则 wTx +b 可简写为 βTx

线性判别分析

分析连续自变量和类别因变量

给定训练样例集，设法找到一个投影矩阵将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别

图片发自简书App

J为类内样例投影点的协方差和异类样例投影点的均值的比值，投影矩阵w使该比值最大时，可达到最优分类。

解得

图片发自简书App

W 为分类器需要的投影矩阵

多分类学习

拆解法，即将多分类任务拆为若干个二分类任务求解.

为拆出的每个二分类任务训练一个分类器;

关键是如何对多分类任务进行拆分

OvO :对要分成的n个类别进行两两配对，从而产生n(n-1）/2个二分类任务，每个任务拥有一个分类器，依次对一个新样本进行分类，将最终得到的结果统计，得到次数最多则为最终分类结果

OvR :对要分成的n个类别，每次划分为一个类别和打包其余所有类别两个类别，从而产生n个任务，预测结果表示为是正类和不是正类，若所有结果中只有一个是是正类，则对应的类别为最终分类结果。

OvO 两个两个判断是哪个分类任务是是两类中的那一类

OvR 依次判断是不是分类任务是是这一类还是其他类

图片发自简书App

开销：OvO由于测试时要进行的分类任务多所以测试时间开销大，但训练每个分类器仅用两个样例（OvR每次都要用到所有样例）所以训练时间开销小

MvM 是每次将若干个类作为正类，若干个其他类作为反类.显然， OvO 和 OvR 是 MvM 的特例. MvM 的正、反类构造必须有特殊的设计，不能随意选取.

最常用的MvM 技术:纠错输出码(由于该编码对分类器的错误有一定容忍和修正力而得名）

图片发自简书App

每个类别有各自的编码，将所有分类任务的结果组成一个编码，再与每个类别的编码比较，距离最小的类别为最终预测结果。

类别不平衡问题（数量不平衡）

如果正反例的训练样本差别很大，则如果学习器永远将新样本预测为样本书数大的那一类，就能达到高精度，但只能预测一类的学习器没有价值。

即使原始问题中不同类别的训练样例数目相当，在使用 OvR、 MvM策略后产生的二分类任务仍可能出现类别不平衡现象。

解决类别不平衡问题的方法

1、欠采样(去除一些反倒使得正、反例数日接近）代表性算法为利用集成学习机制，将反例划分为若干个集合供不同的学习器使用，这样总体来看并没有丢失重要信息。

2、过采样（增加一些正例使得正、反例数目接近）代表性算法是通过对训练集里的正例进行插值来产生额外的正例.

3、阈值移动将再缩放嵌入到决策过程中

总结

基于线性模型的基本形式用最小二乘法估计参数

分类相比回归更复杂，回归只需用线性模型得到预测值，而分类还需得到确定的类别

分类方法有两种

一种由回归模型得到一定范围（0-1）内的输出标志，用以凭借特定数值（0.5）分类

一种用一个投影矩阵投影得到一条直线上的两个区域以分类

把普通线性模型变为逼近对数几率的线性模型，就得到二分类的线性模型

线性判别分析可以进行二分类学习，也可以进行多分类学习

多分类就是把分类任务变成多个二分类任务，分别有一对一，一对多，多对多三种方法

而这样的分类方法存在类别不平衡问题，可以通过过采样欠采样和阈值移动进行修正

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,657评论 6赞 505
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,889评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,057评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,509评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,562评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,443评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,251评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,129评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,561评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,779评论 3赞 335
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,902评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,621评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,220评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,838评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,971评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,025评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,843评论 2赞 354

机器学习第三章线性模型学习笔记

回归学习

分类学习

二分类学习

总结

推荐阅读更多精彩内容