2021李宏毅机器学习 1.3 神经网络LOSS 笔记

新的Loss Function还是一样的,L(θ),也就是说损失是与全部这些未知参数有关系的。然后Loss function的计算,以及如何通过Loss function来优化参数,实际上和线性模型是一样的。

其中▽是求L的梯度,也就是所有参数的偏导组成的向量辣,高数学过的,这样表示简洁一点。


实际训练过程中:

一般并不使用全部training data进行一次参数更新,而是将全部数据分成多个batch,每次使用一个batch进行一次参数更新(update)

全部batch更新一次,可以看作是训练过了1 epoch;所以1 update 和 1 epoch是不一样的。


(batch size也是一个超参,要自己确定的)



sigmoid函数的替换:

可以替换成ReLU,但是和sigmoid比起来,想要拟合蓝线的函数,就需要两个才能拟合了,所以同样的拟合效果,ReLU需要比sigmoid多两倍的神经元。

sigmoid和ReLU统称为activation function,激活函数,神经网络里面的概念。至于哪个比较好,之后讲~



一层神经元的输出,可以把它看作新的特征输入,继续再来一层神经元,至于有多少层,这也是一个超参数需要自己来定的。

neuron-神经元,整体neural network-神经网络,其中每一列叫一个layer,层数很多就把它叫做deep learning深度学习啦。

这就是神经网络的概念了… 第一次听这种讲法。



提出问题:既然足够多的激活函数就可以一次性拟合任何函数的形状,为什么不用一层很多神经元的神经网络,而是层数越来越多了呢?后面会讲。


过拟合 over fitting问题:训练集效果变好,但测试集的效果变差了。


至于怎么样选择模型,下节课讲辣~第一节课结束。

model=设定好超参的一个function,未知的参数是看你模型训练的够不够好,但是模型本身是func决定的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容