吴恩达-机器学习笔记（第四周）

第八、神经网络：表述(Neural Networks: Representation

8.1 非线性假设

本节主要讲了为什么出现神经网络：
线性回归&逻辑回归的缺陷-->特征过多，计算负荷过大-->利用神经网络解决
e.g.假设要识别50x50像素的小图片，将所有像素视为特征，则会有 2500个特征，如果进一步将两两特征组合构成一个多项式模型，则会有约接近3百万个特征。普通的逻辑回归模型，不能有效地处理这么多的特征。这时候我们需要神经网络。

8.2 神经元和大脑

本节介绍了背景知识，举例。
神经网络的最初目：制造能模拟大脑的机器。
神经网络是计算量有些偏大的算法-->技术支持-->计算机的运行速度的增快。

8.3 模型表示1

下图是一个以逻辑回归模型，在神经网络中，参数又可被成为权重（weight）。

下图是二层神经网络：

左边为输入层（Input Layer），

x_1, x_2, x_3

是input units（原始的各种特征）。右边为输出层（Output Layer），中间层成为隐藏层（Hidden Layers）。但是输入层通常不算成第一层。所以我们称该模型为二层模型。

先只看模型的左边部分，该部分可看成三个逻辑回归模型。

x_1, x_2, x_3

是input units（原始的各种特征），

a_1, a_2, a_3

分别可看作是三次不同参数的逻辑回归结果。得到a[1]需要两步：①

z^{[1]}=w^{[1]T}X+b

；②

a^{[1]}=sigmoid(z^{[1]})

。

再看右边。可以将 $a^{[1]}$ 看作是更高级（更厉害）的特征输入，以和x一样的形式充当下一层的输入：① $z^{[2]} = w^{[2]T}X+b$ ；② $a^{[2]} = sigmoid(z^{[2]})$ 。
$a_i^{[j]}$ 代表第j 层的第 i 个激活单元。 $θ^{[j]}$ 代表从第 j 层映射到第j+1 层时的权重的矩阵，例如 $θ^{[1]}$ 代表从第一层映射到第二层的权重的矩阵。其尺寸为：以第 j+1层的激活单元数量为行数，以第 j 层的激活单元数加一为列数的矩阵。
我们可以知道：每一个a都是由上一层所有的x和每一个x所对应的决定的。我们把这样从左到右的算法称为前向传播算法( FORWARD PROPAGATION )。
把x, θ, a 分别用矩阵表示，我们可以得到θ⋅X=a ：