吴恩达deeplearning.ai笔记神经网络和深度学习——神经网络基础

1.二分类问题

  • Logistic Regression就是一个二分类问题;
  • 二分类问题的目标就是输入一个数据集,通过学习得到一个分类器,预测得出数据是0或是1,也就是视频中所说,输入64\times64\times3的像素矩阵,输出图片得到是猫(y=1)或非猫(y=0)。

Notation符号说明

  • 样本:(x,y),训练样本包含m个;
  • 输入数据:X\in \mathbb{R}^{n_x\times m}
  • 输出:y \in \lbrace 0,1 \rbrace,目标值属于0,1分类;

2. Logistic Regresion

逻辑回归中,预测值用概率形式表示:\hat h=P(y=1|x),0\leq\hat h\leq 1表示输出值为1的概率;
然而一般情况下,预测值常用线性函数表示:\hat y=w^Tx+b,此时,\hat y远大于1,故引入sigmoid函数,此时,预测值:\hat y=\sigma(w^Tx+b) \sigma (z)=\frac{1}{1+e^{-z}}


由图看出,
z\to \infty,\sigma(z)\to 1

注意:

  • \sigma'(z)=\sigma(z)(1-\sigma(z))
  • 梯度消失问题?(梯度下降公式不断更新,sigmoid函数导数越来越小,每次迭代步伐越来越小,最终趋近于0)

3. 代价函数与损失函数(Cost function&Loss function)

Loss function:

一般的损失函数用平方错误来表示:L(\hat y,y)=\frac{1}{2}(\hat y-y)^2然而这是一个非凸函数(non convex),只能找到局部最优解,不能使用梯度下降法,无法找到全局最优解。因此,对于logistic regression来说,要选用凸函数。

loss function of logistic regression:

L(\hat y,y)=-(ylog\hat y+(1-y)log(1-\hat y))

  • y=1,\hat y \to 1(预测效果越好),y=0,\hat y \to 0(预测效果越好)
  • 这是针对单个样本点的损失函数,我们的目标是最小化单个样本点的损失函数。

Cost function:

全部训练数据集的Loss function总和的平均值即为训练集的代价函数(Cost function):J(w,b)=\frac{1}{m}\sum_{i=1}^m L(\hat y^{(i)},y^{(i)}) =-\frac{1}{m} \sum_{i=1}^m (y^{(i)}log\hat y^{(i)}+(1-y^{(i)})log(1-\hat y^{(i)}))

  • 迭代计算w和b的值,minimizeJ(w,b).

4. Logistic Regression的梯度下降法Gradient Descent

  • 目标:找全局最小值;
  • 算法:w:=w-\alpha \frac{\partial{J(w,b)}}{\partial w}\alpha:learning rate. b同理

5. m个训练样本的梯度下降

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容