机器学习系列1:线性回归详解

一、什么是机器学习?

机器学习包括:
1.监督学习(supervised learning)

①回归:寻找一个假设函数h(x),根据大量的训练集X来预测目标变量Y,若要预测的目标变量是连续的,则是回归问题,如房价预测。
②分类:如果预测的目标变量只能取一小部分离散值,则是分类问题。

2.无监督学习(Unsupervised learning)

没有标记的数据,如聚类,降维等。

3.半监督学习(Semi-supervised learning)

有标记的数据不够多

4.迁移学习(Transfor learning)

在已经学习的基础上去预测其他任务。

5.结构化学习(Structed learning)

函数输出产生结构化产物,如文本、图片、音频等。

二、线性回归的Loss Function

假设现在是对房价预测,每个样本有两个特征:面积和卧室数目,令:
x^i_1为第i个样本的第1个特征
x^i_2为第i个样本的第2个特征
假设函数如下h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x2=\sum_{i=1}^m\theta_ixi=\theta^Tx
定义Loss Function为:J(\theta)=\frac{1}{2}\sum_{i=1}^m(h_\theta(x^i)-y^i)^2
这个损失函数就是常见的最小二乘,为什么要使用这样的损失函数?
先介绍中心极限定理:
粗略地说,中心极限定理说明大量独立随机变量的和近似地服从正态分布,如果随机变量X服从参数为\mu\sigma^2正态分布,则其密度函数为:f(x)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})
其中\mu等于期望E[X],\sigma^2等于方差Var(x)
假设房价预测模型中真实值和预测值存在以下关系:y^i=\theta^Tx^i+\varepsilon^i
其中\varepsilon^i是建模时未考虑到的因素(如其他因素对房价产生的影响)或者是随机的噪音。
进一步假设\varepsilon^i是独立同分布的,根据中心极限定理,\varepsilon^i服从正态分布,其期望E[X]=0,方差Var(x)=\sigma^2,及即\varepsilon^i~N(0,\sigma^2),其密度函数:p(\varepsilon^i)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\varepsilon^i)^2}{2\sigma^2})
进一步推得:p(y^i|x^i;\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2})
p(y^i|x^i;\theta)表示对于给定的x^i时,y^i的分布情况,用\theta来代表该分布的参数,令X代表所有x^i的集合,再给定\theta,则此时y的分布情况可以表示为:p(\vec{y}|X;\theta)
可以把它看成是\vec{y}的函数,\theta为其参数,则可以表示成:L(\theta)=L(\theta;X,\vec{y})=p(\vec{y}|X;\theta)
L(\theta)即为似然函数,进一步推导可得:L(\theta)=\prod_{i=1}^mp(y^i|x^i;\theta)=\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2})
L(\theta)即为y与x之间的概率模型。
由最大似然法可知,要寻找对\theta的最佳猜测,我们要选择使L(\theta)尽可能大的\theta,为了方便计算,对L(\theta)取对数得:
\begin{split} l(\theta)={} &logL(\theta)=log\prod_{i=1}^mp(y^i|x^i;\theta){} \\ &=\sum_{i=1}^mlog\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^i-\theta^Tx^i)^2}{2\sigma^2}){} \\ &=mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^m(y^i-\theta^Tx^i)^2 \end{split}
即意味着让\frac{1}{2}\sum_{i=1}^m(y^i-\theta^Tx^i)^2取到最小值,这也就是成本函数J(\theta)的由来。
可以证明,J(\theta)是一个凸函数(对J(\theta)计算二阶导数可以发现其恒大于等于0),凸函数没有局部最优点只有一个全局最优解,所以不会陷入局部最小,就像方圆五百里只有一个最高的山峰,而不是坑坑洼洼的丘陵。

三、梯度下降

对损失函数进行求导:\begin{split} \frac{\partial{J(\theta)}}{\partial \theta_j}={} &\frac{\partial{}}{\partial \theta_j}\sum_{i=1}^m\frac{1}{2}(h_\theta(x^i)-y^i)^2{} \\ &=2\times\frac{1}{2}\sum_{i=1}^m(h_\theta(x^i)-y^i)\times \frac{\partial{}}{\partial \theta_j}(h_\theta(x^i)-y^i){} \\ &=\sum_{i=1}^m(h_\theta(x^i)-y^i)x_j^i \end{split}
所以随机梯度下降的算法为:
\begin{split} while\lgroup {}\\ {}&\theta_j:=\theta_j-\alpha\sum_{i=1}^m(h_\theta(x^i)-y^i)x_j^i \quad(对所有j){}\\ \rgroup \end{split}
批量梯度下降法:
\begin{split} while\lgroup {}\\ {}&i从1到m:\lgroup {}\\ {}&\theta_j:=\theta_j-\alpha (h_\theta(x^i)-y^i)x_j^i \quad(对所有j){}\\ {}& \qquad\rgroup{}\\ \rgroup \end{split}

三、正则化

正则化是为了防止模型过拟合,一般都是在损失函数后面加上正则项,构成目标函数:\theta^*=argmin_\theta\sum_iL(y^i,f(x_i;\theta))+\lambda\Omega(\theta)
\lambda\Omega(\theta)即为正则项,一般有L_0,L_1,L_2范数。

1.L0范数:

\Omega(\theta)=\sum_{i=1,\theta_j \neq0}^m\theta_j^0
L_0范数指向向量中的非0元素个数,若用L_0范数来规范权重矩阵\theta,就是希望\theta中大部分都为0,即让权重是稀疏的。

2.L1范数

\Omega(\theta)=\sum_{i=1}^m|\theta_j|
L_1范数是L_0的最优凸近似,L_1范数同样可以实现稀疏。
一般常用L_1而不是L_0,原因有下:
L_0范数很难优化,L_1L_0的最优凸近似,比L_0更容易求解,他们都可以实现稀疏。

3.L2范数

\Omega(\theta)=\sum_{i=1}^m\theta_j^2
L_2也被称为岭回归或权重衰减。
L_2正则化可以让权重变得很小,接近于0,但不为0,权重越小,越不容易过拟合,个人的理解是,假设函数中有高次项,而高次项的权重越小,对函数的影响也就越小,不会造成明显的过拟合。
L_1L_2的对比如下:
将这两者的优化目标列出来:
Lasso(L1):min_\theta\frac{1}{m}||h_\theta(x)-y)||^2.s.t||\theta||_1\le C
Ridge(L2):min_\theta\frac{1}{m}||h_\theta(x)-y)||^2.s.t||\theta||_2\le C
图形:

image

等高线看成损失函数,L1的约束条件可以表示成一个四边形,L2的约束条件可以表示成一个圆形,等高线与约束条件相交的一点则为最优点。
L1正则化的情况下,等高线与L1-ball大多数情况下都会在“角”上相交,例如图中交点,这也解释了为什么L1具有稀疏性,而等高线与L2-ball一般不会在零点处相交,只会接近0.
总结:
1.会产生稀疏性,趋向于产生少量的特征,其他特征权重都为0,常用于特征选择;
2.会选择更多特征,且都接近0.
3.和都可以防止过拟合。
4.如果一个模型中只有少量的特征时有用的,那就选择
5.如果所有特征都有用且作用比较匀,选择。
此外,都只对起作用,不用于截距,因为对应的并不算特征,对模型复杂度没有影响。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,185评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,652评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,524评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,339评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,387评论 6 391
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,287评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,130评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,985评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,420评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,617评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,779评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,477评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,088评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,716评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,857评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,876评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,700评论 2 354

推荐阅读更多精彩内容

  • 今天,天气虽然有点阴沉沉的,但我还是很高兴的,3月8日妇女节,是天下女人的节日,祝所有的女人节日快乐! ...
    乐_d897阅读 196评论 0 0
  • 一个没控制,又被他激怒了,对他一点都没有耐心,24小时的朝夕相处,24小时,除了了付出就是付出,他24小时随时随地...
    对与错w阅读 142评论 0 0
  • Android开发的小伙伴们肯定会用到百度地图或者高德地图的API,都需要输入开发版的SHA1和发布版的SHA...
    猪爸爸Hulk阅读 6,715评论 4 7
  • 堂吉诃德倒下了,理想主义死去了。 看完音乐剧《我·堂吉诃德》,内心有种说不起的难受与悲伤。 细细回想起,之前发生的...
    自然2H阅读 1,024评论 0 1