吴恩达《神经网络和深度学习》课程笔记
以监督学习为例
1. 训练集的表达
一组训练样本:
m组训练样本的集合:
把m组训练样本合并,形成训练矩阵:
2. logistic回归
给定输入x,输出结果y^,其中:
y^的计算公式如下:
3. 损失函数的表达
Loss function:一组训练样本的损失(下图为交叉熵损失,神经网络中最常用的损失函数)
Cost function:对于同一组参数,所有训练样本的损失的平均值
训练网络时,要找到一组参数使 Cost function 尽量小。
采用梯度下降法:每次是参数值往使 Cost function 减小的方向移动。
为什么损失函数要写成上述形式?
目标是上式最大,所以构建损失函数如上述形式。
4. 梯度的反向传播
- 如果a增加一个很小的增量,这个增量是从前往后传播的,先传递到v,再传递到a。
- 而在计算梯度时应该从后往前计算,例如 dJ/da=dJ/dv * dv/da。
- 计算dJ/db时,将c带入当前值就可以了。
5. Logistic回归的梯度下降法
伪代码描述:
J=0; dw1=0; dw2=0; db=0
for i = 1 to m
z(i) = w.T*x(i) + b
a(i) = sigmoid(z(i))
J += -(y(i)*log(a(i)) + (1-y(i))*log(1-a(i)))
dz(i) = a(i) - y(i)
for j = 1 to n
dwj += xj(i) * dz(i)
db += dz(i)
J /= m
dw1 /= m; dw2 /= m; db /= m
w1 := w1 - c*dw1
w2 := w2 - c*dw2
b := b - c*db
其中,m 代表了训练样本的个数,j 代表了有多少个特征。例如 j=2,则 z=w1Tx1+w2Tx2+b。
所以,这里的 x1(1) 和 x2(1) 只是数字,合起来是向量 x(1),后面的 dwj 也是数字。把它们都合并成向量就可以去掉这一层 for 循环了。
使用向量化的方法(基于Python的numpy):
J=0; db=0
dw = np.zeros((nx,1))
Z = w.T*X + b
A = sigmoid(Z)
dZ = A - Y
dw = X*dZ.T / m
db = np.sum(dZ) / m
w := w - c*dw
b := b - c*db
尽量不用for循环,而用Python内置的向量计算函数。因为向量计算函数是并行运行的,可以大大提高计算速度。
6. 使用Python向量的注意事项
Python中的broadcast机制
- (m,n) 的矩阵加(或减、乘、除)一个 (m,1) 的矩阵,Python 会将其复制为 n 列,再计算;
- (m,n) 的矩阵加(或减、乘、除)一个 (1,n) 的矩阵,Python 会将其复制为 m 行,再计算;
- (1,n) 的矩阵加(或减、乘、除)一个实数 r,Python 会将其复制为 n 列,再计算;
- (m,1) 的矩阵加(或减、乘、除)一个实数 r,Python 会将其复制为 m 行,再计算。
生成一个随机初始化的向量
- a = np.random.randn(5)
生成的是秩为1的数组,既不是行向量也不是列向量 - a = np.random.randn(5,1)
生成的是5*1的列向量 - a = np.random.randn(1,5)
生成的是1*5的行向量