Machine Learning流水帐笔记-第二周:Linear Regression with Multiple Variables

没错啦,就是Coursera上吴恩达的课。什么,第一篇笔记为啥从第二周开始?不好意思啦,第一周都在笔记本上呢,还没开简书哈哈哈~

多变量回归

第二周V1-V2首先讲了Multiple feature的线性回归梯度下降方法,其实就是多变量函数,大概用到求偏导之类的简单推导即可得到通式,和单变量是一致的。

V3则是说明多feature的情况下,scaling类似非常重要,feature之间相对一致的scaling可以加快梯度下降的迭代速度。实现这一点只要做些normalization之类的统计处理即可,与气象上的变量标准化的思路是一样的,距平除以数据的range或者标准差。

V4首先介绍如何检测正在执行的梯度下降是有效的,很简单,把cost function的值在每轮iteration后拿出来看看就可以啦,在一定迭代次数后cost function收敛到某值即可。当然也可以使用automatic convergence test,就是看每轮梯度下降对cost function的减少是否低于某阈值。之后则是介绍如果发现cost function出现了随着迭代次数增加而发散或周期性振荡的情况,则需要调小learning rate(传说中的调参民工干的事情么)。这和气象模式积分不稳定的时候需要调小积分步长类似,有着一致的出发点和处理思路。当然,随之带来的则是计算量的显著提升。Andrew随后给出了实际应用中他所采取的方法,给一个等比数列的alpha,大概按3x增加,然后都来train一遍,最后选个收敛相对快且足够小的alpha即可。

V5讲了多feature的选择问题,这对建模是非常重要的,也说明背景领域知识的重要性。Andrew举了个具体的例子,比如在有了house长和宽两个指标的情况下,预测房价显然用长宽的乘积,也就是面积,作为新的feature是更合理的。同时,若feature和房价的关系更可能是多项式关系,三次回归显然比二次回归合理,因为二次回归抛物线性质会使得feature大的时候price反而减小,这是不合常识的。当然更合理的假设可能是下面的形式:

当然形式本身并不反映mechanism,我们的目标是凑出最有效的预测嘛。

多项式回归依然采用梯度下降处理(体现出梯度下降相比最小二乘的优势了吧),只是要注意scaling非常重要,因为feature的高次幂值域会显著扩大。

Normal Equation

好吧刚刚怼了最小二乘这里就介绍了。以一阶线性回归为例,求导,set=0,得到解析解。一般化的,对于theta0-n共n+1个feature,构建design matrix X,转置观测列向量并依观测放入X的每一行即可,即m观测行乘以n特征列矩阵:


y则是对应label的列向量。

然后Andrew直接给出了求theta的Normal Equation:

视频中没有给出推导过程,自己试着推导了一下,对cost function求导并set为0向量。还是需要用到一些矩阵运算的性质(好了,不要吐槽我autodraw的清奇画风):

用Normal equation的话不需要考虑scaling的问题, which is nice。Andrew对梯度下降和NE的优缺点做了个很好的对比:

划重点,由于NE的时间复杂度是O(n^3),n如果很大,也就是说feature很多的话,NE会很慢,n~10^6必然要使用GD啦,Andrew建议10^4以上采用GD。另外对于clustering类的问题,NE是无效的,GD无敌。

V2介绍NE的noninvertibility的问题。如果X'X是不可逆的话,比如是singular或者degenerate矩阵。Andrew没有讲具体数学细节,而是给出实际应用中出现这样情况的可能情形:

1. redundant features 存在冗余特征。

2. 观测样本太少,而feature太多。

Octave/Matlab Tutorial

来来来,一起复习下matlab语法与交互式操作

2==4 

3~=4 注意不是!=

1 && 0  ; 3 || 3; xor (1,0)=1

预定义常量 pi

disp(sprintf('2 decimals: %0.2f', a))

v=1:0.1:2 % from 1 to 2, step 0.1

ones(2,3) % 2x3

zeros(); rand(); randn() % normalized distribution

生成高斯样本:

对角矩阵 eye(n)

size(ones(2,3))

2  3

A=[1 2; 3 4; 5 6]

load('xxx.dat')

who %返回目前内存中的变量

whos %列表化变量

clear A %删除变量

save hello.mat v; %保存目前的交互中使用的内存变量v


subset就不记录了。

append操作

A=[A, [22,33,44] %列向量append

[A B] %行拼接(横向)

[A B] %列拼接(纵向)

A' % transpose A

[val, ind] = max(A)

find(a<3)

sum(a); prod(a)

max(A,[],1) %max among each col

max(A,[],2) %max among each row

flipud(A) %上下翻转

pinv(A) %pseudo求逆

print -dpng 'test.png'

clf %clear all figures

imagesc(A) % gridfilling show the matrix

Vectorization:


当然要向量化操作啦~ 

所以update假设的向量化非常简单


quiz里注意一下,矩阵按位取平方与矩阵平方是不同概念

A^2 ~= A.^2

编程大作业就实现梯度下降求线性回归啦。submission system还是很牛的,提供邮箱和coursera的token就可以自动上传评分,没想到我这个audit还可以交作业,不错不错。

当然additional也要做得啦


不是总结的总结

第二周感觉还不算难,基本概念还是够用的,只是线性代数不少忘记了,matlab的函数也不太熟悉,向量化操作还要脑补半天矩阵图景。视频1.25x播放速度基本可以接受,讲程序的时候不需要subtitle,慢慢试着讲课也去掉subtitle吧,其实主要是一些符号的名词不熟悉,比如semicolon 什么的要反应半天。toggl记录的总用时如下:


五小时17分,基本都是在今天完成的啦。视频+笔记+编程作业,这个时间还算满意,再接再厉。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容