会话打开方式

with tf.Session() as sess:
    result2=sess.run(product)
    print(result2)

神经网络参数与Tensorflow变量

在Tensorflow中，变量tf.Variable的作用就是保存和更新神经网络中的参数。变量的类型（type）是不可以改变的。

# 使用 tf.Variable() 新建一个变量
state = tf.Variable(0,name='counter')   # 新建一个计数变量

# 使用随机数给变量初始化，声明一个2x3的矩阵变量
weights = tf.Variable(tf.random_normal([2,3], teddev=2, seed=1))

构建模型是，可以通过变量声明函数中的trainable参数来区分需要优化的参数（比如神经网络中的参数）和其他参数（比如迭代的轮数）。如果声明变量时参数trainalbe为True，那么这个变量将会被加入到GraphKeys.TRAINABLE_VARIABLES集合。在Tensroflow中可以通过tf.trainalbe_variables函数得到所有需要优化的参数。

placeholder传入值

使用placeholder后，在计算时，需要提供一个feed_dict来指定x的取值，feed_dict是一个字典(map)，在字典中需要给出每个用到的placeholder的取值。

# placeholder定义了一个位置，使得在程序中不需要大量的常量来提供输入数据
x = tf.placeholder(tf.float32,shape=(2,3),name='input')

训练神经网络的全部过程

定义神经网络的结构和前向传播的输出结果。
定义损失函数以及选择反向传播优化的算法。
生成会话（tf.Session）并且在训练数据上反复运行反向传播优化算法。

激活函数（activation function)

激活函数必须是可微分的，才能将误差反向传递回去
神经层只有两三层的时候，对于隐藏层，使用任意激活函数都不会有特别大的影响
如果神经网络层数很多层的时候，不能随意使用任意的激活函数，否则可能会出现梯度爆炸、梯度消失的问题
少量层结果中，可以尝试多种不同的激活函数；卷积神经网络中，一般使用ReLU；循环神经网络，一般使用tanh或ReLU
ReLU函数：
$f(x)=max(x,0)$
sigmoid函数
$f(x)=\frac{1}{1+e^{-x}}$
tanh函数
$f(x)=\frac{1-e^{-2x}}{1+e^{-2x}}$

经典损失函数

分类问题

通过神经网络解决多分类问题最常用的方法时设置n个输出节点，其中n为类别的个数。对于每一个样例，神经网络可以得到的一个n维数组作为输出结果。数组中的每一个维度（也就是每一个输出节点）对应一个类别。

可以通过交叉熵刻画两个概率分布之间的距离
$H(p,q)=-\sum_{x}{p(x)\log{q(x)}}$
为使概率分布满足和为1的特点，可将原始的神经网络输出为 $y_1, y_2, ..., y_n$ ，那么经过Softmax回归处理之后的输出为：
$softmax(y_i)=y'_i=\frac{e^{y'_i}}{\sum{^n_{j=1}}e^{y'}}$
交叉熵函数不是对称的（ $H(p,q) \not= H(q,p)$ ），它刻画的是通过概率分布 $q$ 来表达概率分布 $p$ 的困难程度。因为正确答案是希望得到的结果，所以当交叉熵作为神经网络的损失函数时， $p$ 代表的是正确答案， $q$ 代表的是预测值。交叉熵刻画的是两个概率分布的距离，也就是说交叉熵值越小，两个概率分布越接近。

回归问题

回归问题解决的是对具体数值的预测，故而解决回归问题的神经网络一般只有一个输出节点，这个节点的输出值就是预测值。对于回归问题，最常用的损失函数是均方误差(MSE, mean square error)。定义如下：
$MSE(y,y')=\frac{\sum^n_{i=1}{(y_i-y'_i)^2}}{n}$
其中 $y_i为正确答案$ ，而 $y'_i$ 为神经网络给出的预测值。

神经网络优化算法

梯度下降算法

梯度下降算法主要用于优化单个参数的取值，还需定义一个学习率 $\eta$ 来定义每次参数更新的幅度。参数更新公式：
$\theta_{n+1}=\theta_n-\eta\frac{\partial}{\partial \theta_n}J(\theta_n)$
只有当损失函数为凸函数时，梯度下降法才能保证达到全局最优解。梯度下降算法的另外一个问题就是计算时间太长，因为要在全部训练数据上最小化损失，所以损失函数 $J(\theta)$ 是在所有训练数据上的损失和，这样在每一轮迭代中都需要计算在全部训练数据上的损失函数。

加速神经网络训练

随机梯度下降 Stochastic Gradient Descent (SGD)

将数据拆分，分批不断放入神经网络中计算

$W += -Learning\ rate * dx$

Momentum

$m= b1*m-Learning\ rate*dx$

$W+=m$

AdaGrad

$v+=(dx)^2$

$W+=\frac{-Learning\ rate *dx}{\sqrt{v}}$

RMSProp

同时具备Momentum和AdaGrad的优势，但不具备Momentum中的-Learning\ rate*dx

$v=b1*v+(1-b1)*(dx)^2$

$W+=\frac{-Learning\ rate * dx}{\sqrt{v}}$

Adam

Momentum:

$m=b1*m+(1-b1)*dx$

AdaGrad：

$v=b2*v+(1-b2)*(dx)^2$

$W+=\frac{-Learning\ rate*m}{\sqrt{v}}$

Optimizer 优化器

class tf.train.GradientDescentOptimizer 初学者用这个就够了
class tf.train.AdagradOptimizer
class tf.train.MomentumOptimizer 高阶中比较常用的
class tf.train.AdamOptimizer 高阶中比较常用的
class tf.train.FtrlOptimizer
class tf.train.RMSPropOptimizer

学习率的设置

在训练神经网络时，需要设置学习率控制参数更新的速度。学习率决定了参数每次更新的幅度，如果幅度过大，那么可能导致参数在极优值得两次来回移动；当学习率过小时，虽然能保证收敛性，但是这会大大降低优化速度。故学习率既不能过大，也不能过小。为解决设定学习率的问题，Tensorflow提供了一种更加灵活的学习率设置方法——指数衰减法。tf.train.exponential_decay函数实现了指数衰减学习率：

# decayed_learning_rate 为每一轮优化时使用的学习率，learning_rate 为事先设定的初始学习率， decay_rate 为衰减系数， decay_steps为衰减速度。
decayed_learning_rate = learning_rate * decay_rate ^ (global_step / decay_steps)

过拟合问题

为了避免过拟合问题，一个非常常用的方法是正则化（regularization），即优化 $J(\theta)+\lambda R(w)$ ，其中 $J(\theta)$ 为损失函数， $R(w)$ 刻画的是模型的复杂程度，而 $\lambda$ 表示模型复杂损失在总损失中的比例。这里 $\theta$ 表示的是一个神经网络中所有的参数，包括边上的权重 $w$ 和偏置项 $b$ 。一般来说模型复杂度只由权重 $w$ 决定。常用的刻画模型复杂度的函数 $R(w)$ 有两种，一种是 $L1$ 正则化：
$R(w)=\left\|w\right\|_1=\sum_{i}{|w_i|}$
另一种是 $L2$ 正则化：
$R(w)=\left\|w\right\|^2_2=\sum_i{|w^2_i|}$
$L1$ 正则化会让参数变得更稀疏，会有更多的参数变为0，可以达到类似特征选取的功能；而 $L2$ 正则化不会，因为当参数很小时，比如0.001，这个参数的平方基本上就可以忽略了，于是模型不会进一步将这个参数调整为0。另外， $L1$ 正则化的计算公式不可导，而 $L2$ 正则化公式可导，在优化时，需要计算损失函数的偏导数，所以对含有 $L2$ 正则化损失函数的优化要更加简洁，优化带 $L1$ 正则化的损失函数要更加复杂，而且优化方法也有很多种。也可以同时使用 $L1$ 正则化和 $L2$ 正则化：
$R(w)=\sum_i{\alpha |w_i|+(1-\alpha)w^2_I}$
带 $L2$ 正则化的损失函数定义：

w=tf.Variable(tf.random_normal([2,1],stddev=1,seed=1))
y=tf.matmul(x,w)

# lambda参数表示了正则化的权重，w为需要计算正则化损失函数的参数
loss=tf.reduce_mean(tf.square(y_-y))+tf.contrib.layers.l2_regularizer(lambda)(w)

Tensorflow提供了tf.contrib.layers.l2_regularizer函数，他可以返回一个函数，这个函数可以计算一个给定参数的 $L2$ 正则化项的值。类似的，tf.contrib.layers.l1_regularizer可以计算 $L1$ 正则化项的值。

当网络结构复杂之后定义网络结构的部分和计算损失函数的部分可能不在同一个函数中，此时通过变量计算损失函数就不方便了，为解决该问题，可使用Tensorflow提供的集合（collection）。使用add_to_collection函数将变量加入集合。