区分
有监督学习- 无监督学习
分类(得到唯一的类别值) - 回归(得到区间中某一个值)
例子剖析

image.png
回归问题,将会通过现有数据特征预测获得得到多少钱,一个区间内的一个任意数值。
分类问题,将会通过现有数据特征预测银行是否会借贷钱,一个确定的类别值。
线型回归算法原理

image.png

image.png
θ0为偏置项,独立的;其他θ为权重值,调整每一个特征的贡献度;从而去拟合一个平面。计算中常用矩阵

image.png

image.png
重点理解:独立、同分布、高斯分布(正态分布)

image.png
加入标准的高斯分布的误差表达式,变换形态表示出θ参数的取值;理解:寻求误差值分布的大概率范围对应的θ参数值,这样会是的函数的预测值更加趋近于真实值。

image.png
似然函数:这里是最大似然函数,通过参数与数据组合更加贴近真实值,使得屏幕拟合度提高。【最大似然估计原理:给定一个概率分布D,假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为fD,以及一个分布参数θ,我们可以从这个分布中抽出一个具有n个值的采样X1,X2,...,Xn,通过利用fD,我们就能计算出其概率:

image
但是,我们可能不知道θ的值,尽管我们知道这些采样数据来自于分布D。那么我们如何才能估计出θ呢?一个自然的想法是从这个分布中抽出一个具有n个值的采样X1,X2,...,Xn,然后用这些采样数据来估计θ。
一旦我们获得,我们就能从中找到一个关于θ的估计。最大似然估计会寻找关于 θ的最可能的值(即,在所有可能的θ取值中,寻找一个值使这个采样的“可能性”最大化)。这种方法正好同一些其他的估计方法不同,如θ的非偏估计,非偏估计未必会输出一个最可能的值,而是会输出一个既不高估也不低估的θ值。
要在数学上实现最大似然估计法,我们首先要定义可能性:

image
并且在θ的所有取值上,使这个函数最大化。这个使可能性最大的值即被称为θ的最大似然估计。】
引入对数似然的原因: 转化为对数似然,是因为对数的乘法会转换成加法,减小运算难度。

image.png
展开化简后形成,大于零的常数 减去 一个式子 (保证对数似然函数值最大,那么就使式子的值越小越好)
重点理解:误差的高斯分布,似然函数、对数似然;为什么回归使用最小二乘法,它们之间的关系。

image.png

image.png

image.png

image.png

image.png
三种梯度下降的分析如上,通常采用小批量梯度下降法

image.png
步长的选择一般为0.01,小的话就是0.005等;常见策略是最开始步长大一点,最后逼近调优时小一点