2021李宏毅机器学习 1.3 神经网络LOSS 笔记

新的Loss Function还是一样的，L(θ)，也就是说损失是与全部这些未知参数有关系的。然后Loss function的计算，以及如何通过Loss function来优化参数，实际上和线性模型是一样的。

其中▽是求L的梯度，也就是所有参数的偏导组成的向量辣，高数学过的，这样表示简洁一点。

实际训练过程中：

一般并不使用全部training data进行一次参数更新，而是将全部数据分成多个batch，每次使用一个batch进行一次参数更新（update）

全部batch更新一次，可以看作是训练过了1 epoch；所以1 update 和 1 epoch是不一样的。

（batch size也是一个超参，要自己确定的）

sigmoid函数的替换：

可以替换成ReLU，但是和sigmoid比起来，想要拟合蓝线的函数，就需要两个才能拟合了，所以同样的拟合效果，ReLU需要比sigmoid多两倍的神经元。

sigmoid和ReLU统称为activation function，激活函数，神经网络里面的概念。至于哪个比较好，之后讲~

一层神经元的输出，可以把它看作新的特征输入，继续再来一层神经元，至于有多少层，这也是一个超参数需要自己来定的。

neuron-神经元，整体neural network-神经网络，其中每一列叫一个layer，层数很多就把它叫做deep learning深度学习啦。

这就是神经网络的概念了… 第一次听这种讲法。

提出问题：既然足够多的激活函数就可以一次性拟合任何函数的形状，为什么不用一层很多神经元的神经网络，而是层数越来越多了呢？后面会讲。

过拟合 over fitting问题：训练集效果变好，但测试集的效果变差了。

至于怎么样选择模型，下节课讲辣~第一节课结束。

model=设定好超参的一个function，未知的参数是看你模型训练的够不够好，但是模型本身是func决定的。