(1)偏差
实际值与预估值的偏差。
(2)方差
一次模型的方差就比较小的,也就是是比较集中,离散程度较小。而5次模型的方差就比较大,同理散布比较广,离散程度较大。
所以用比较简单的模型,方差是比较小的(就像射击的时候每次的时候,每次射击的设置都集中在一个比较小的区域内)。如果用了复杂的模型,方差就很大,散布比较开。
这也是因为简单的模型受到不同训练集的影响是比较小的。

简单模型(左边)是偏差比较大造成的误差,这种情况叫做欠拟合,而复杂模型(右边)是方差过大造成的误差,这种情况叫做过拟合。
如果模型没有很好的训练训练集,就是偏差过大,也就是欠拟合 如果模型很好的训练训练集,即再训练集上得到很小的错误,但在测试集上得到大的错误,这意味着模型可能是方差比较大,就是过拟合。 对于欠拟合和过拟合,是用不同的方式来处理的
此时应该重新设计模型。因为之前的函数集里面可能根本没有包含f^*f∗。可以:
将更多的函数加进去,比如考虑高度重量,或者HP值等等。 或者考虑更多次幂、更复杂的模型。 如果此时强行再收集更多的data去训练,这是没有什么帮助的,因为设计的函数集本身就不好,再找更多的训练集也不会更好。
简单粗暴的方法:更多的数据.
在第二篇文章中有介绍到梯度下降法的做法,传送门:机器学习入门系列02,Regression 回归:案例研究
在回归问题的第三步中,需要解决下面的最优化问题:

LL :lossfunction(损失函数)
\thetaθ :parameters(参数)
这里的parameters是复数,即 \thetaθ 指代一堆参数,比如上篇说到的 ww 和 bb 。
我们要找一组参数 \thetaθ ,让损失函数越小越好,这个问题可以用梯度下降法解决:
假设 \thetaθ 有里面有两个参数 \theta_1, \theta_2θ1,θ2 随机选取初始值
\theta^0 = \begin{bmatrix} \theta_1^0 \\ \theta_2^0 \end{bmatrix} \tag2θ0=[θ10θ20](2)
这里可能某个平台不支持矩阵输入,看下图就好。