机器学习常见问题整理

1. 为什么说regularization是阻止overfitting的好办法?

overfitting是由high variance导致,high variance 是由特征太多,特征值过度敏感导致,regularizer能够减少特征数量和降低特征值敏感度,所以说是个好方法。

模型表现差,可以因为模型太呆板,太固执;也可以因为是模型太随性,太无主见;regularizer提供了一个叫\lambda的旋钮,调大能让模型不要太随性,调小能让模型不要太呆板。

参考:
一句话版机器学习:为什么说regularization是阻止overfitting的好办法

图解机器学习:为什么以及如何用bias variance诊断模型病症

课程:Diagnosing Bias vs. Variance
笔记:为什么以及如何用bias variance诊断模型病症

图解机器学习:为什么说regularizer是模型治疗手段(bias variance诊断方式)

课程:Regularization and Bias_Variance
笔记:为什么说regularizer是模型治疗手段(bias variance诊断方式)

中期理解整理

李宏毅深度学习课程(全2课2017年版)笔记汇总_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

2.16 直观理解regularization.mp4
3.1 如何直观理解bias and variance01.mp4
3.2 如何直观理解bias and variance02.mp4
3.3 如何解决模型的bias过大的问题.mp4
3.4 如何解决variance过高的问题.mp4

早期理解整理

吴恩达深度学习课程(全):掰开揉碎版

1.4 正则化 课程 笔记
1.5 为什么正则化可以减少过拟合? 课程 笔记

2. 如何直观理解PCA的目的和原理?

PCA的目的:是对高维数据降维度,作为一种技巧参与到模型训练中实现提升训练速度效率;

PCA的原理:
一方面,通过投影projection将高维数据投影到线,平面,3维,或K维空间上,在设定保留数据结构信息(比如95%)的条件下,通过trial and error 筛选出一个合适的K值,来实现最大化降低维度和最大化保留数据信息的博弈(在这里实现了多个eigenvectors数量的确定即K值);

另一方面,通过比较不同线(平面,空间)之间的投影距离,选取投影距离之和最短的线作为K=1情况下的最优线(在这里完成了eigenvector内部值的计算);

最后,K个eigenvectors组合成一个matrix,matrix的transposition对原数据做变形,变形后的结果就是降维后的新数据;如果用同一个matrix还可以对新数据做还原,还原后的数据是原数据到K维空间上的投射点。

参考:

吴恩达机器学习PCA的视频课程和笔记理解

图解机器学习:为什么要对数据做降维和压缩,可视化有助于理解压缩后的维度内涵

课程:Motivation I_ Data Compression Motivation II_ Visualization
笔记:为什么要对数据做降维和压缩,可视化有助于理解压缩后的维度内涵

图解机器学习:如何理解PCA是一种projection降维的最优方案以及PCA的算法逻辑

课程:Principal Component Analysis Problem Formulation
课程:Principal Component Analysis Algorithm
笔记:如何理解PCA是一种projection降维的最优方案以及PCA的算法逻辑

图解机器学习:PCA是如何通过K寻找最优的降维幅度的

课程:Choosing the Number of Principal Components
笔记:PCA是如何通过K寻找最优的降维幅度的

图解机器学习:如何理解PCA中的U_reduce, x, z, x_approximation的关系

课程:Reconstruction from Compressed Representation
笔记:如何理解PCA中的U_reduce, x, z, x_approximation的关系

图解机器学习:实际模型训练中如何正确使用PCA和规避常见错误用法

课程: Advice for Applying PCA
笔记:实际模型训练中如何正确使用PCA和规避常见错误用法

3. 主成分分析(PCA)主成分维度怎么选择?

关于K的内涵:PCA目的是降维度,降维的方法是做投影projection, 假如 [图片上传失败...(image-b49e5c-1537289879749)]

, 那么到底是投影到1维直线上,2维平面上,还是3维空间中?回答这个问题,是K的使命。

关于K值怎么定:trial and error, 将K=1(直线),2(平面),3(空间)。。。分别带入到一个不等式中,选择那个最能满足不等式成立的K值即可。

关于这个不等式:设定好我们希望PCA保留原有数据variance信息的百分比(如95%),不等式核心内容是做最大限度降维与最大化保留数据结构信息的博弈。


image

参考:

一句话版机器学习:PCA的维数K应该怎么选?

图解机器学习:为什么要对数据做降维和压缩,可视化有助于理解压缩后的维度内涵

课程:Motivation I_ Data Compression Motivation II_ Visualization
笔记:为什么要对数据做降维和压缩,可视化有助于理解压缩后的维度内涵

图解机器学习:如何理解PCA是一种projection降维的最优方案以及PCA的算法逻辑

课程:Principal Component Analysis Problem Formulation
课程:Principal Component Analysis Algorithm
笔记:如何理解PCA是一种projection降维的最优方案以及PCA的算法逻辑

图解机器学习:PCA是如何通过K寻找最优的降维幅度的

课程:Choosing the Number of Principal Components
笔记:PCA是如何通过K寻找最优的降维幅度的

图解机器学习:如何理解PCA中的U_reduce, x, z, x_approximation的关系

课程:Reconstruction from Compressed Representation
笔记:如何理解PCA中的U_reduce, x, z, x_approximation的关系

图解机器学习:实际模型训练中如何正确使用PCA和规避常见错误用法

课程: Advice for Applying PCA
笔记:实际模型训练中如何正确使用PCA和规避常见错误用法

4. 为什么说PCA不应该被用来规避overfitting?

从overfitting角度看,定义中内置了Y值,Y值的监督让我们看到training loss与validation loss的训练足后次数后的巨大差异,巨大差异造就了overfitting;

所以没有Y值,就谈不上overfitting;

从PCA角度看,PCA眼里只有特征即X,完全无视Y值,虽然降维后,仍保持X极高比例的variance信息,但没有任何依据说新生成的低维数据能提炼任何与Y值相关的信息;

因此,指望PCA规避overfitting,逻辑上不成立。

参考: 一句话版机器学习:为什么说PCA不应该被用来规避overfitting?

更多关于PCA的吴恩达课程和笔记,见:

图解机器学习:为什么要对数据做降维和压缩,可视化有助于理解压缩后的维度内涵

课程:Motivation I_ Data Compression Motivation II_ Visualization
笔记:为什么要对数据做降维和压缩,可视化有助于理解压缩后的维度内涵

图解机器学习:如何理解PCA是一种projection降维的最优方案以及PCA的算法逻辑

课程:Principal Component Analysis Problem Formulation
课程:Principal Component Analysis Algorithm
笔记:如何理解PCA是一种projection降维的最优方案以及PCA的算法逻辑

图解机器学习:PCA是如何通过K寻找最优的降维幅度的

课程:Choosing the Number of Principal Components
笔记:PCA是如何通过K寻找最优的降维幅度的

图解机器学习:如何理解PCA中的U_reduce, x, z, x_approximation的关系

课程:Reconstruction from Compressed Representation
笔记:如何理解PCA中的U_reduce, x, z, x_approximation的关系

图解机器学习:实际模型训练中如何正确使用PCA和规避常见错误用法

课程: Advice for Applying PCA
笔记:实际模型训练中如何正确使用PCA和规避常见错误用法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,869评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,716评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,223评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,047评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,089评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,839评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,516评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,410评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,920评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,052评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,179评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,868评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,522评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,070评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,186评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,487评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,162评论 2 356

推荐阅读更多精彩内容