以一元线性回归为例，函数为：

$y_i = \beta_{0} + \beta_{1}x_i + \varepsilon_i, i = 1,2,...n$

其中， $\beta_{0} + \beta_{1}x$ 表示y随x的变化而线性变化的部分， $\beta_0, \beta_1$ 是待求解的参数； $\varepsilon$ 是随机误差，是其他一切不确定因素的综合，其值不可观测，通常假定 $\varepsilon$ ～ $N(0,\sigma^2)$ 。

误差项分析：极大似然估计

因为误差 $\varepsilon$ 服从正态分布 $N(0,\sigma ^2)$ ，兼通过目标函数移项，得到其概率密度：

$p(\varepsilon _i)=\frac{1}{\sqrt{2\pi }\sigma} exp(-\frac{(y_i-\beta _0-\beta_1x_i)^2}{2\sigma ^2} )$

希望误差能尽量为0，因此误差发生的概率应尽可能地大（根据正态分布，越靠近均值，发生的概率越大？）。使用似然函数来估计参数，并加以对数变换使表达式从连乘变为连加，更好算：

$logL(\beta_0,\beta_1)=log\prod_{i=1}^n \frac{1}{\sqrt{2\pi }\sigma} exp(-\frac{(y_i-\beta _0-\beta_1x_i)^2}{2\sigma ^2} )$

展开化简，得到：

$Q(\beta_0, \beta_1)=nlog\frac{1}{\sqrt{2\pi } \sigma } -\frac{1}{\sigma ^2}\cdot \frac{1}{2} \sum_{i}^n(y_i=\beta_0-\beta_1x_i)^2$

继续化简，忽略常数项，得到估计参数的目标函数，此为最小二乘法的推导过程。

损失函数求解：最小二乘法

通过极大似然估计分析误差项（即最小二乘法），得到损失函数：

$Q(\beta_0, \beta_1)=\sum_{i}^n(y_i-\beta_0-\beta_1x_i)^2$

待求损失函数最小时的参数 $\beta_0, \beta_1$ 值，即转换为：当损失函数关于 $\beta_0, \beta_1$ 的一阶偏导数都等于0时，求解关于 $\beta_0, \beta_1$ 的二元二次方程问题。求得：

$\beta_1=\sum_{i}^n\frac{(x_i-\bar{x} )(y_i-\bar{y})}{(x_i-\bar{x} )^2}$ , $\beta_0=\bar{y} -\beta_1\bar{x}$

损失函数求解：梯度下降法

原理

假设有m个参数，目标损失函数如下：

$J(\beta_0, \beta_1,...\beta_m)=\frac{1}{n} \sum_{i}^n(y_i-\beta_0-\beta_1x_i...-\beta_mx_i)^2$

这是一个关于 $\beta$ 的多元函数， $x_i$ 相当于系数。所以，有几个 $\beta$ 待求解，就相当于目标函数有几维。除以n是为了对损失值取平均值（因为样本量增加，累积的损失值也会增加）。

梯度下降法的思路是：

1. 先确定步长，包括方向和步子大小

步长是学习率和方向相乘的矢量。令学习率为 $\alpha$ ，代表步子的大小，相当于步长的模长。方向是梯度的负方向，在这个方向上函数值下降的最快，对每一个参数求偏导可得：

$[\frac{\partial J(\beta)}{\beta_1} ,\frac{\partial J(\beta)}{\beta_2} ,...\frac{\partial J(\beta)}{\beta_m} ]$

2. 对于每一个 $\beta$ ，设定初始值，按照确定好的步长，代入 $x_i,y_i$ 值，不断迭代：

$\beta_j=\beta_j-\alpha \frac{\partial J(\beta)}{\partial \beta_j} =\beta_j-\alpha \cdot x_{ij}\cdot \frac{1}{n} \sum_{i}^n(y_i-\beta_0-\beta_1x_i...-\beta_mx_i)^2$