线性模型

一 线性模型特点

  形式简单、易于建模、具有特别好的可解释性——权重大小就直接表示该属性的重要程度。

二 线性回归

1. 定义:给定数据集D=\left\{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \right\} ,其中x_i=(x_{i1};x_{i2};...;x_{id}),y_i\in R. “线性回归”试图学习得一个线性模型以尽可能准确地预测实际输出标记。

2. 一元线性回归:输入属性的数目只有一个,权重w是一个数。即D=\left\{(x_i,y_i)\right\}_{i=1}^m,x_i\in R.线性回归试图学得f(x_i)=wx_i+b,使得f(x_i)\cong y_i

3. 线性回归的主要任务在于如何确定w和b,这又决定于如何衡量f(x)与y之间的差别——均方误差是回归任务中最常用的性能度量(均方误差有非常好的几何意义,对应了常用的欧几里得距离,基于均方误差最小化来进行模型求解的方法称为“最小二乘法”),因此我们可试图让均方误差最小化(找到一条直线,使所有样本到直线上的欧氏距离之和最小),即:

(w^*,b^*)=argmin\sum_{i=1}^m(f(x_i)-y_i)^2=argmin\sum_{i=1}^m(y_i-wx_i-b)^2

4. 求解w和b使E_{w,b}=\sum\nolimits_{i=1}^m(y_i-wx_i-b)^2最小化的过程,称为线性回归模型的最小二乘“参数估计”

5. 求解方法:将E_{(w,b)}分别对w和b求导,并令倒数为零便可得到w和b最优解的闭式解。

\frac{\partial E_{(w,b)}}{\partial w}=\sum_{i=1}^m2*(y_i-wx_i-b)*-x_i=\sum_{i=1}^m2*(wx_i^2+bx_i-y_ix_i)

=2(w\sum_{i=1}^m x_i^2-\sum_{i=1}^m(y_i-b)x_i )

\frac{\partial E_{(w,b)}}{\partial b}=\sum_{i=1}^m2*(y_i-wx_i-b)*-1=\sum_{i=1}^m2*(b-(y_i-wx_i))=2*(\sum_{i=1}^mb-\sum_{i=1}^m(y_i-wx_i) )

=2(mb-\sum_{i=1}^m(y_i-wx_i) )

由于\frac{\partial ^{2} E_{(w,b)}}{\partial w^{2}}=2\sum_{i=1}^mx_i^2>0\frac{\partial ^{2} E_{(w,b)}}{\partial b^{2}}=2m>0,在一阶倒数最小处必然取得极小值。令:

\left\{               \begin{array}{**lr**}               w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i=0, &  \\               mb-\sum_{i=1}^m(y_i-wx_i) =0, &                 \end{array}  \right.  -->\left\{               \begin{array}{**lr**}               w=\frac{\sum_{i=1}^my_i(x_i-\frac{1}{m}\sum_{i=1}^mx_i  ) }{\sum_{i=1}^mx_i^2-\frac{1}{m}(\sum_{i=1}^mx_i )^2  } , &  \\               b =\frac{1}{m}\sum_{i=1}^m(y_i-wx_i)  , &                 \end{array}  \right.

6. 多元线性回归:样本由d个属性描述,多元回归试图学得,使得f(x_i)=w^Tx_i+b,使得f(x_i)\cong y_i

7.广义线性回归:令线性模型预测值逼近y的衍生物,例如对数线性回归lny=w^Tx+b,它试图让e^{w^Tx+b}逼近y,形式上仍是线性回归,但实质上在求取输入空间到输出空间的非线性函数映射。

三 对数几率回归(逻辑斯蒂回归)

1. 若要进行分类,需要将分类任务的真实标记与线性回归模型的预测值联系起来——通过一个单调可微函数。

2. 考虑二分类任务,其输出标记y\in \left\{ 0,1 \right\} ,将线性回归产生的实值转换为0/1值,最理想的是“单位阶跃函数”,即若预测值z大于零就判为正例,小于零则判为反例,预测值为临界值零则可任意判别。但是该函数不连续--->选择一定程度上近似单位阶跃函数的对数几率函数——一种“Sigmoid函数”(形似S的函数)。定义如下:

y=\frac{1}{1+e^{-z}} =\frac{1}{1+e^{w^Tx+b}}      --->    ln\frac{y}{1-y} =w^Tx+b(对数几率,用线性模型去逼近真实标记的对数几率)--->对数几率回归(logit regression/逻辑斯蒂回归),虽然名字是“回归”,但实际是一种分类学习方法。

3. 对数几率回归的优势:(1)直接对分类可能性进行建模,无需事先假设数据分布,可避免假设分布不准确所带来的问题;(2)它不是仅预测出“类别”,而是可得到近似概率预测,这对许多需利用概率辅助决策的任务很有用;(3)对数几率函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解。

4. 模型参数估计:若将y视为类后验概率估计p(y=1 | x),则2中的式子可重写为:

ln\frac{p(y=1|x)}{p(y=0|x)} =w^Tx+b --->  \left\{               \begin{array}{**lr**}               p(y=1|x)=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}} , &  \\               p(y=0|x) =\frac{1}{1+e^{w^Tx+b}} .&                 \end{array}  \right.

(二项逻辑斯蒂回归模型,对于输入x,比较两个条件概率值的大小,将实例x分到概率值较大的那一类)

于是可以通过“极大似然法”来估计w和b。给定数据集\left\{ (x_i,y_i) \right\}^m_{i=1} ,对数几率回归模型最大化“对数似然”:l(w,b) = \sum_{i=1}^mlnp(y_i|x_i;w,b),即令每个样本属于真实标记的概率越大越好。

5. 对数似然函数详细推导:对于给定的训练数据集T=\left\{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \right\} ,其中x_i\in R^n,y_i\in \left\{ 0,1 \right\} ,对于单个样本x_iy_i=1的概率是P(y_i=1|x_i)y_i=0的概率是P(y_i=0|x_i),所以对于单个样本应该最大化[P(yi=1|x_i)]^{y_i}[P(yi=0|x_i)]^{1-y_i},对于所有m个样本其似然函数为:\prod_{i=1}^m [P(yi=1|x_i)]^{y_i}[P(yi=0|x_i)]^{1-y_i},对数似然函数为

ln\prod_{i=1}^m [P(yi=1|x_i)]^{y_i}[P(yi=0|x_i)]^{1-y_i}
=\sum_{i=1}^mln[ [P(yi=1|x_i)]^{y_i}[P(yi=0|x_i)]^{1-y_i}]

=\sum_{i=1}^m[y_iln [P(y_i=1|x_i)]+ln[P(y_i=0|x_i)]-y_iln[P(y_i=0|x_i)]]

=\sum_{i=1}^m[y_iln\frac{P(y_i=1|x_i)}{P(y_i=0|x_i)}+ln[P(y_i=0|x_i)] ],根据逻辑斯蒂回归函数可得以下式子:

=\sum_{i=1}^m[y_i(w^Tx+b)+ln\frac{1}{1+e^{w^Tx+b}} ]

=\sum_{i=1}^m[y_i(w^Tx+b)-ln(1+e^{w^Tx+b})]

则对上式求极大值便能得到w和b得估计值,求极大值通常采用的方法是梯度下降法和拟牛顿法。

6. 多项逻辑斯蒂回归:多分类问题中,变量y_i\in \left\{ 1,2,...,K \right\} ,那么多项逻辑斯蒂回归模型是:

\left\{               \begin{array}{**lr**}               p(y=k|x)=\frac{e^{w^Tx+b}}{1+\sum_{k=1}^{K-1} e^{w_k^Tx+b}} ,k=1,2,...,K-1 &  \\               p(y=K|x) =\frac{1}{1+\sum_{k=1}^{K-1}e^{w_k^Tx+b}} .&                 \end{array}  \right.

二项逻辑斯蒂回归的参数估计方法也可以推广到多项逻辑斯蒂回归。

备注:《机器学习》第3章笔记,《统计学习方法》第6章。

四 感知机

1. 定义:假设输入空间(特征向量)是\chi \in R^n,输出空间是y=\left\{ +1,-1\right\}。输入x\in \chi 表示实例的特征向量,对应于输入空间(特征空间)的点;输出y\in y表示实例的类别。由输入空间到输出空间的如下函数称为感知机:

f(x)=sign(wx+b),w为权值,b为偏置。

2. 感知机学习目标:求得一个能够将训练集正实例点和负实例点完全分开的分离超平面。

3. 感知机学习策略(损失函数):误分类点到超平面S的总距离最小。

1)输入空间中任一点x_0到超平面S到距离:\frac{1}{\left\|w\right\|_2} \vert wx_0+b \vert

2)误分类点x_i到超平面S的距离:-\frac{1}{\left\|w\right\|_2} y_i(wx_i+b)

3)所有M个误分类点到超平面S的总距离:-\frac{1}{\left\|w\right\|_2}\sum_{x_i\in M} y_i(wx_i+b)

4)不考虑常数项,感知机学习的损失函数(经验风险函数):L(w,b)=-\sum_{x_i\in M} y_i(wx_i+b)

5)感知机的学习策略:在假设空间中选取使该损失函数最小的模型参数。

4. 感知机学习算法:求解损失函数最优化问题-->随机梯度下降。首先,任意选取一个超平面w_0,b_0,然后采用梯度下降法不断地极小化目标函数,极小化过程中不是一次使M中所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降。感知机算法存在许多解,这些解既依赖于初值的选择,也依赖于迭代过程中误分类点的选择顺序。为了得到唯一的超平面,需要对分离超平面增加约束条件-->线性支持向量机。

备注:《统计学习方法》第2章笔记。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容