吴恩达神经网络——Logistic Regression

Binary Classification

Notation
$(x,y)$ , $x{\in}R^n_x, y{\in}\{0,1\}$ ，输入向量维度 $n_x$
m个训练样本：( $x^{(1)}, y^{(1)}$ ), ( $x^{(2)}, y^{(2)}$ ), ..., ( $x^{(m)}, y^{(m)}$ )
输入为一个 $n_x{\times}m$ 的矩阵 $X={\begin{bmatrix} | & | & & | \\ x^{(1)} & x^{(2)}&\dots & x^{(m)} \\ | & | & &| \end{bmatrix}}$ 。
输出为一个 $1{\times}m$ 的矩阵。 $Y={\begin{bmatrix}y^{(1)} & y^{(2)} & ... & y^{(m)}\end{bmatrix}}$

Logistic Regression

Given $x$ , want $\hat{y}=P(y=1|x), x{\in}R^n_x$
Parameters: $w{\in}R^n_x, b{\in}R$
Output: $\hat{y}={\sigma}(w^Tx+b), \quad{\sigma}(z)=\frac{1}{1+e^{-z}}$
Loss function（定义在单个样本上）: $L(\hat{y}, y)=-(ylog\hat{y}+(1-y)log(1-\hat{y}))$
if $y=1:$ $L(\hat{y}, y)=-log\hat{y}$ $\hat{y}$ 越大越好，因此希望 $\hat{y}=1$ 。
if $y=0:$ $L(\hat{y}, y)=-log(1-\hat{y})$ $\hat{y}$ 越小越好，因此希望 $\hat{y}=0$ 。
Cost function（定义在数据集上）: $J(w, b)=\frac{1}{m}\sum_{i=1}^m L(\hat{y^{(i)}}, y^{(i)})$

Gradient descent

Repeat { ${\omega} :=w-{\alpha}\frac{\partial J(w, b)}{\partial w}$ $b := b-{\alpha}\frac{\partial{J(w, b)}}{\partial b}$ }

Logistic regression derivatives(单个样本)

Model
$z=w^Tx+b$ $\hat{y}=a={\sigma}(z)$ $L(a, y)=-(ylog(a)+(1-y)log(1-a))$
Back propagation
Step1 $\mathrm{d}a=\frac{\mathrm{d}L(a,y)}{\mathrm{d}a}=-\frac{y}{a}+\frac{1-y}{1-a}$
Step2 $\mathrm{d}z=\frac{\mathrm{d}L}{\mathrm{d}a}\frac{\mathrm{d}a}{\mathrm{d}z}=(-\frac{y}{a}+\frac{1-y}{1-a})(1-a)a=a-y$
Step3 $\mathrm{d}w_1=\frac{\partial L}{\partial w_1}=x_1\mathrm{d}z$
Step4 ${w_1} := {w_1}-{\alpha}\mathrm{d} w_1$ ${w_2} := {w_2}-{\alpha}\mathrm{d} w_2$ $b := b-{\alpha}\mathrm{d} b$

向量化

前向传播
$Z=w^TX+b$ $A=\sigma(Z)$
后向传播
$\mathrm{d}Z=A-Y$ $\mathrm{d}b=\frac{1}{m}np.sum(\mathrm{d}Z)$ $\mathrm{d}w=\frac{1}{m}np.sum(X\mathrm{d}Z^T)$
${w} := {w}-{\alpha}\mathrm{d} w$ $b := b-{\alpha}\mathrm{d} b$

最后编辑于：2018.11.21 10:52:03

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

吴恩达神经网络——Logistic Regression

Binary Classification

向量化

友情链接更多精彩内容