线性回归背后的数学

本文是YouTube上视频How to Do Linear Regression the Right Way笔记

假设我们有一堆数据,并且他们是线性相关的,那我们怎么找出最合适的那条直线呢?

此处关键是定义什么是最合适?可以通过每个点到直线的距离来定义整个合适,如图:

在上面的过程中,直线y=mx+b中m和b不管变化,从而找到最合适的直线,这个判断的依据就是:

上面公式的含义是:假设点是(x,y),那相同x的直线上的点就是:(x,mx+b),而这两者之间的距离就是(y-(mx+b)),为了防止出现负数,因此我们就计算了平方,有了这个衡量的标准后,我们就可以画出上面公式的一个图了:

此处画出来是一个立体图,我们要找的一个最佳的直线,对应到图中其实就是一个最低点,更形象的例子是:

如果我们此时放一个弹珠到碗里,最终弹珠停下来的点就是我们要找的最佳点,现在我们没有弹珠,我们要怎么找到这个最佳点呢?这就要讲到偏导数(partial derivatives)的概念了,以前大学里学偏导数的是时候一直不明白为什么叫偏导,直到最近看到英文:partial derivatives才明白,我们来看图:

图中的函数f是一个表面,如果我们固定住y,则是一个曲线,如图中绿色的线,此时我们在计算点(a,b,f(a,b))在绿色线上的斜率,就可以得到沿着x方向的斜率了,同样的我们固定x,就可以得到y方向的斜率,这样子解释,英文partial derivatives就很形象了,即计算的部分的斜率,合在一起才是曲面上这个点相切的一个平面。

由此我们就有了偏导数:

根据上面的这些我们就有了最后的代码:https://github.com/llSourcell/linear_regression_live

一些视频的中的词汇记录:

back of your hand:了如指掌

gradient descent:梯度下降

partial derivatives:偏导数

calculus:微积分

correlation:相关性

intercept:截断

slope:斜率

Convergence:收敛

slope formula:斜率公式

magnitude:大小

with respect to:关于

tangent:切线

好书推荐:Machine Learning and Probabilistic Approach

推荐资源

More learning resources:
http://mathinsight.org/image/partial_...
http://www.dummies.com/education/math...
https://spin.atomicobject.com/2014/06...
https://www.quora.com/What-is-an-intu...
http://machinelearningmastery.com/gra...

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 作者按:简书的文艺气息还是比较浓的。我们来捣捣乱,搞一篇全部数学公式的文章,用实际行动推动简书加入 MathJax...
    kamidox阅读 5,215评论 8 6
  • 文章作者:Tyan博客:noahsnail.com | CSDN | 简书 声明:作者翻译论文仅为学习,如有侵权请...
    SnailTyan阅读 10,720评论 0 8
  • PID控制器是一种常用的控制技术,常用于多种机械装置(如车辆、机器人、火箭)中。用数学方式来描述PID控制器是非常...
    云淡天空阅读 11,554评论 0 11
  • 摘要 一元线性回归可以说是数据分析中非常简单的一个知识点,有一点点统计、分析、建模经验的人都知道这个分析的含义,也...
    程sir阅读 42,848评论 7 76
  • 1. 区分重载方法 规则很简单,每个重载的方法都必须有一个独一无二的参数类型列表。以返回值来区分重载方法是行不通的...
    Megamind_China阅读 2,744评论 0 0

友情链接更多精彩内容