CS231N 学习笔记 Lecture_3 & 4 损失函数和优化器 神经网络简介和BP

视频在b站上有

线性分类器:定义一个loss函数,然后做optimization----使得loss最小。在W空间中搜索最佳的W

A loss function tells how good our current classifier is.


多分类SVM:

对所有类别进行总和,除了正确的类别Yi。公式中,如果正确的分类比错误的分类大(在一个安全区域内,设置为1),那么loss为0

比如说有一个W使得loss为0,也会有其他的W使得loss为0,即其不唯一。比如2W也使得loss为0


Regularization用于防止过拟合


常见的Regularization方法:


最常用的是L2(也称为weight decay),L2正则化是在惩罚欧几里得的规范。加正则化项是迫使模型倾向于简单的模型


Softmax Classifier:




Optimization

第一种方法:random search,随机初始化W,然后挑选loss最小的


第二种:梯度下降

gradient check:http://blog.csdn.net/lanchunhui/article/details/51279293

计算整个数据集上的loss会很慢,所以使用minibatch,Stochastic Gradient Descent(SGD)随机梯度下降

Numerical gradient:每次用一个很小的值更新W,然后计算loss值,接着估计gradient

Analytic gradient:求偏导数

在神经网络之前的方法,取特征然后进行分类,常见的特征1. 颜色,各个颜色的多少  2.  边缘信息 Histogram of Oriented Gradients方向直方图 3. bag of words





BP:

从节点之后传递回来的梯度乘以local的梯度,再反向传递回去。


加法相当于将梯度分配给之前的每个节点,都相同。max相当于路由,只传递给较大的那一个节点。乘法相当于梯度switcher,转换器吧,收到其他节点输入值的影响。

分支的反向传回来的梯度相加


Neural Network:

对于之前的线性方程f=Wx,进行修改f=W2max(0, W1x) W1相当于去学习一些模版,W2是这些模版的加权

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容