吴恩达神经网络——Logistic Regression

Binary Classification

Notation
(x,y), x{\in}R^n_x, y{\in}\{0,1\},输入向量维度n_x
m个训练样本:(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), ..., (x^{(m)}, y^{(m)})
输入为一个n_x{\times}m的矩阵X={\begin{bmatrix} | & | & & | \\ x^{(1)} & x^{(2)}&\dots & x^{(m)} \\ | & | & &| \end{bmatrix}}
输出为一个1{\times}m的矩阵。Y={\begin{bmatrix}y^{(1)} & y^{(2)} & ... & y^{(m)}\end{bmatrix}}

Logistic Regression

Given x, want\hat{y}=P(y=1|x), x{\in}R^n_x
Parameters: w{\in}R^n_x, b{\in}R
Output: \hat{y}={\sigma}(w^Tx+b), \quad{\sigma}(z)=\frac{1}{1+e^{-z}}
Loss function(定义在单个样本上): L(\hat{y}, y)=-(ylog\hat{y}+(1-y)log(1-\hat{y}))
if y=1: L(\hat{y}, y)=-log\hat{y} \hat{y}越大越好,因此希望\hat{y}=1
if y=0: L(\hat{y}, y)=-log(1-\hat{y}) \hat{y}越小越好,因此希望\hat{y}=0
Cost function(定义在数据集上): J(w, b)=\frac{1}{m}\sum_{i=1}^m L(\hat{y^{(i)}}, y^{(i)})

Gradient descent

Repeat {{\omega} :=w-{\alpha}\frac{\partial J(w, b)}{\partial w} b := b-{\alpha}\frac{\partial{J(w, b)}}{\partial b}}

Logistic regression derivatives(单个样本)

  • Model
    z=w^Tx+b \hat{y}=a={\sigma}(z) L(a, y)=-(ylog(a)+(1-y)log(1-a))
  • Back propagation
    Step1\mathrm{d}a=\frac{\mathrm{d}L(a,y)}{\mathrm{d}a}=-\frac{y}{a}+\frac{1-y}{1-a}
    Step2\mathrm{d}z=\frac{\mathrm{d}L}{\mathrm{d}a}\frac{\mathrm{d}a}{\mathrm{d}z}=(-\frac{y}{a}+\frac{1-y}{1-a})(1-a)a=a-y
    Step3\mathrm{d}w_1=\frac{\partial L}{\partial w_1}=x_1\mathrm{d}z
    Step4{w_1} := {w_1}-{\alpha}\mathrm{d} w_1 {w_2} := {w_2}-{\alpha}\mathrm{d} w_2 b := b-{\alpha}\mathrm{d} b

向量化

  • 前向传播
    Z=w^TX+b A=\sigma(Z)
  • 后向传播
    \mathrm{d}Z=A-Y \mathrm{d}b=\frac{1}{m}np.sum(\mathrm{d}Z) \mathrm{d}w=\frac{1}{m}np.sum(X\mathrm{d}Z^T)
    {w} := {w}-{\alpha}\mathrm{d} w b := b-{\alpha}\mathrm{d} b
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容