第一周
一、简介:机器学习在我们生活中包含很多方面
EX: 1)Google 或者微软的排序机制让我们很快搜索出满意的结果
2) Facebook中电脑可以识别出自己好友的头像
3)阅读邮件时,邮件过滤器可以过滤掉大量的垃圾邮件
4)智能的AI 学习人类的智能
5)自动化技术和网络,将医疗记录转化为知识,能更好的理解疾病,etc
6)让计算机如何自己学习驾驶飞机
7)Amazon的推荐产品机制
二、Definition:
1) 1959年,Arthur Samuel编写了跳棋游戏. 它定义了这是让电脑掌握如何去学习理解知识的领域
他自己并不是围棋高手,但是他通过让电脑和自己对弈几万次找出什么套路更容易赢。
2)Tom Mitchell:
Define E: 程序员跟自己下几万次跳棋,
T: 玩跳棋
P:与新对手下棋赢的概率
计算机程序员从E中学习,解决某一任务T进行某一性能度量P,通过在T上的表现P对E进行提高。
二 普遍的机器学习内容
1,监督学习(已知数据点的具体分类)
1) regression(linear regression/ polynomial regression, etc)
X—房屋大小
Y—不同房屋大小所对应的价格
2)probit model( classification problem)
X—肿瘤的大小
Y—1/0 1—良性肿瘤、 0–恶性肿瘤
对于一些分类明确的特征,我们有更清晰的划定:
2,无监督学习(不知数据点的具体分类)
三,监督学习中regression具体介绍和idea
现在,我们的目标是通过给定的训练集,找出适合的房屋大小和价格的关系函数,以至于当我们知道一个这个训练集之外的X,能更好的预测出与之对应的Y。假设这是一个线性关系,所以找出函数关系的关键是找出parameters。所以现在我们又可以对这些函数对应的parameters进行假设,Here,我们先从简单的开始,不考虑截距,假设截距是0)。
当X的系数是0,1,2。。。当x前面的系数是0时,可以画出第一个图中的regression,得到真实值和预测值的离散函数。当x前面的系数是1时,可以画出第一个图中的regression,得到真实值和预测值的离散函数。这样,我们可以得到连续的系数和离散函数之间的函数关系,
1,不考虑截距的linear regression
得到第二张图,从而转化成函数的最小值问题(离散函数的值越小,我们预测的线越好)。当我们找到最小离散函数时所取的参数,就可以在第一张图中画出最贴合的regression,从而运用这个第一张图的关系,对房屋大小所对应的房价进行预测。(视频中成为代价函数,anyway,我们只需要想想真实的和假设的之间的差值,差的越小越好)。
2)考虑截距的linear regression,
在不考虑截距时,我们只有一个参数,所以一个参数对应一个离散函数的y,同时对应一条预测函数。
现在考虑截距,所以有两个参数,两个参数对应一个代价函数的值, 同时对应一条预测函数。
而两个参数对应他们的代价函数时,会有不同的parameters的组合取到相同的代价函数的值。
所以一个二维的包含两个parameters的集合可以形成一个从上面俯视的contour set,形成上面第二张图的indifference curve的曲线,indifference curve的每条曲线对应一个代价值,通过不同的indifference curve的变化趋势,由此可以知道代价值的变化趋势,找到最小代价对应的parameters,从而预测出最好的第一个图中的最适合的曲线。
假设只有一个参数,参数和代价值的关系是一个二次函数,
这里可以initial一个参数的值,让参数在这个值的时候,看看旁边取什么点,离散值可以得到最快的下降,当然,得到的最低点不一定是最好的,因为这个和起始值区域性走势有关。
(但是没关系,可以测试不同的起始值,最后再进行比较)
上面这个函数关系决定了参数的值是往右取还是往左取,阿尔法是很小很小的值,我们成为学习率,上面的偏微分是值二维中的斜率,如上图所示,起始值在最小值左边时,斜率为负,阿尔法下一个取值更大,故为了达到最小代价要往右走。起始值在右边时,反之。Here,阿尔法取无限小原因是不能错过真正的我们想取的最小的代价点。
最后我们想找到的就是这个最低点,恰好,斜率为零,得到最终的值和上一个阿尔法不变。
假设parameters和代价值是三维的关系,上面的等式每次分别求偏导然后再进行行走选择。可以把参数想成一个二维的 set,每次分别算,但是一起取,把bundle看成很多组的set就可以转化成和二维一样的idea