【本文使用的是TensorFlow1.x，如需TensorFlow2.x的内容参见我的“TensorFlow2实战”笔记】

一、目标

训练一个单变量线性方程：

y = w * x + b

来拟合一系列根据随机分布人工生成的点集

二、人工生成目标训练集

1. 方案

在如下线性方程

y = 2.0 *x +1.0

的基础上添加振幅为0.4的噪声来生成训练集（也暗示了我们的训练结果应该接近w=2.0, b=1.0）

2. 代码实现

载入库并设置随机种子

import matplotlib.pyplot as plt #载入matplotlib
import numpy as np #载入numpy
import tensorflow as tf #载入TensorFlow

np.random.seed(5) #设置随机种子

设置随机种子的目的是为了让任何人每次生成的随机数总是固定的，以便于对照结果（本质上不是必须的，只是练习的一种手段）
在-1至1之间生成100个等间距的值作为特征集

x_data = np.linspace(-1, 1, 100)

注：np.linspace生成的是双闭区间，即第一项是-1，最后一项是1
然后按 y = 2.0 *x +1.0 并添加噪声来生成对应的标签集

y_data = 2.0 * x_data + 1.0 +np.random.randn(*x_data.shape) * 0.4

np.random.randn(x,y,z...)，其中x,y,z...是整数，这样就可以生成shape为(x,y,z...)numpy张量，其中每一个元素都按标准（normal）正态分布随机取得。x_data.shape等于元组(100,)，前面加“*”是对list或tuple拆包，可以理解为把list或tuple的元素一个个按顺序取出来。也就是说上面这一行的效果等于np.random.randn(100)

3. 用matplotlib可视化

可以用matplotlib可视化上述定义的散点图

plt.scatter(x_data, y_data)

也可以用下面的代码画出我们目标的线性函数，并设颜色为红色定、线宽为3

plt.plot(x_data, 2.0 * x_data  + 1.0, color = 'red', linewidth = 3)

输出

三、构建模型

用占位符定义定义训练数据

x = tf.placeholder('float', name = 'x')
y = tf.placeholder('float', name = 'y')

其中x是特征值，y是标签值。占位符即意味着等后面运行会话（Session）时再把数据传进去。然后用变量创建训练目标——斜率w和截距b

w = tf.Variable(1.0, name = 'w0')
b = tf.Variable(0.0, name = 'b0')

w和b训练开始的初值分别设为1.0和0.0（随意给的，但并不是所有模型随便给都好，可能影响训练效果），tf.Variable默认trainable为True，意味着w和b可以在训练过程中被改变——我们的目标就是通过训练，自动得到w和b的值。
接着定义模型函数和预测值节点

def model(x, w, b):
  return tf.multiply(x, w) + b

pred = model(x, w, b)

即输出根据当前的w和b所计算出的y

四、训练模型

模型的训练是一个反复迭代的过程，通过当前参数的模型以及标签值来计算损失，根据损失来调整参数然后更新模型原来的参数。

1. 迭代轮数和学习率

迭代可以由条件终止。或手动设定轮数（epochs），本例我们使用后者，设定轮数为100。学习率（learning rate）影响损失的收敛，是个经验值：太小则收敛慢，太大会发生反复震荡，本例学习率设为0.05

train_epochs=100
learning_rate=0.05

2. 损失函数

损失函数（loss function）用于描述预测值与真实值（标签）之间的误差。损失函数减小的方向就是模型收敛的方向。均方差（Mean Square Error, MSE）是最常见的损失函数之一，也称作 $L_2$ 函数

$L_2=\frac{1}{N}\sum^{}_{(x,y)\in D}{(y-prediction(x))^2}$

用代码实现均方差损失函数

loss_function = tf.reduce_mean(tf.square(y - pred))

其中，函数 tf.reduce_mean 可以直接计算数组里所有元素的平均值（输出一个数）。

3. 优化器

优化器（Optimizer）是最小化损失函数的训练算法，TensorFlow的API已经包含了多种优化器的封装，我们可以直接使用而不必自己编写程序。最典型的一种优化器式梯度下降优化器（Gradient Descent Optimizer）

optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss_function)

注意优化器函数的输入项是学习率learning_rate和损失函数loss_function

五、创建会话

首先，实例化一个会话对象

sess = tf.Session()

然后初始化所有变量——这是使用TensorFlow变量必须做的

init = tf.global_variables_initializer()
sess.run(init)

这样我们就可以开始训练模型了，在以下for循环内迭代训练，并可视化

plt.figure() #创建新图
plt.scatter(x_data, y_data)
for epoch in range(train_epochs):
    sess.run(optimizer, feed_dict={x: x_data, y: y_data})
    #绘制每次训练的结果
    temp_w0 = w.eval(session=sess) #用于输出当前变量的值 也可以直接sess.run(w)
    temp_b0 = b.eval(session=sess)
    plt.plot(x_data, temp_w0 * x_data + temp_b0)
#保存最后的训练结果参数
b_final=sess.run(b)
w_final=sess.run(w)

输出结果

可以看到结果越来越趋向散点的轴线。
为了更清晰，可以创建一个新图显示按最后训练结果画出的线

plt.figure() #创建新图
plt.scatter(x_data, y_data)
plt.plot(x_data, w_final * x_data + b_final)

输出

image.png

打印最后得到的w和b

print('Final: w = %f, b = %f' %(w_final, b_final))

输出

Final: w = 1.973689, b = 1.036591

很接近我们的目标值w=2.0和b=1.0
最后别忘记关闭会话

sess.close()

六、训练批量

最后我们补充讨论一下训练批量问题。

1. 全批量训练

即每轮训练，整个训练集的所有标签数据都参与运算。也就是我们前面代码所做的，每个epoch都把x_data和y_data整个传给placeholder

...
for epoch in range(train_epochs):
    sess.run(optimizer, feed_dict={x: x_data, y: y_data})
...

这种做法的缺点是，如果训练集非常大，那么训练效率会很低。（本例中的100个标签算很少的所以还好）

2. 随机单一样本训练

每轮训练只从训练集随机抽出单一样本（相当于批量大小为1）参与计算，迭代足够多次数也可以达到训练效果。把之前的代码按如下修改即可得到

...
for epoch in range(train_epochs):
    i=np.random.randint(0, 100) #随机生成0~99间的一个整数
    sess.run(optimizer, feed_dict={x: x_data[i], y: y_data[i]}) #随机梯度下降（随机单一标签迭代）
...

对于梯度下降的随机样本训练也称为随机梯度下降法（SGD）

3. 随机小批量训练

每轮训练从训练集随机抽取一定数量的样本参与计算。比如本例可改为每轮随机抽取10个样本传给placeholder

...
for epoch in range(train_epochs):
    batch=np.random.randint(0, 100, 10) #随机生成0~99间的10个整数并组成数组
    sess.run(optimizer, feed_dict={x: x_data[batch], y: y_data[batch]}) #小批量随机梯度下降
...

对梯度下降法采用小批量抽样也成为小批量随机梯度下降法（Mini-batch SGD）。这种方法既可以减少SGD中杂乱样本的数量，效率也比全批量高，是前面两种方法的中和。

附：完整代码

import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

np.random.seed(5)

x_data = np.linspace(-1, 1, 100)

y_data = 2.0 * x_data + 1.0 + np.random.randn(*x_data.shape) * 0.4

plt.figure()
plt.scatter(x_data, y_data)
plt.plot(x_data, 2.0 * x_data+1.0, color='red', linewidth=3)

# 构建模型
x = tf.placeholder('float', name = 'x')
y = tf.placeholder('float', name = 'y')

w = tf.Variable(1.0, name = 'w0')
b = tf.Variable(0.0, name = 'b0')

def model(x, w, b):
  return tf.multiply(x, w) + b

pred = model(x, w, b)

# 训练模型
train_epochs=100
learning_rate=0.05

loss_function = tf.reduce_mean(tf.square(y - pred))

optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss_function)

# 创建和运行会话
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run(init)
    
    plt.figure() #创建新图
    plt.scatter(x_data, y_data)
    for epoch in range(train_epochs):
        batch=np.random.randint(0, 100, 10) #随机生成0~99间的十个整数组成的数组
        sess.run(optimizer, feed_dict={x: x_data[batch], y: y_data[batch]}) #小批量随机梯度下降
        #绘制每次训练的结果
        temp_w0 = w.eval(session=sess) #用于输出当前变量的值 也可以直接sess.run(w)
        temp_b0 = b.eval(session=sess)
        plt.plot(x_data, temp_w0 * x_data + temp_b0)
    #保存最后的训练结果参数
    b_final=sess.run(b)
    w_final=sess.run(w)
        

plt.figure() #创建新图
plt.scatter(x_data, y_data)
plt.plot(x_data, w_final * x_data + b_final)

print('Final: w = %f, b = %f' %(w_final, b_final))

注：创建会话使用了控制流语句with/as，可以在使用结束或异常时自动关闭session对象

Reference:
https://www.icourse163.org/learn/ZUCC-1206146808#/learn/content?type=detail&id=1214536570&sm=1

2.1 TensorFlow实战一：单变量线性方程

2.1 TensorFlow实战一：单变量线性方程

一、目标

二、人工生成目标训练集

1. 方案

2. 代码实现

3. 用matplotlib可视化

三、构建模型

四、训练模型

1. 迭代轮数和学习率

2. 损失函数

3. 优化器

五、创建会话

六、训练批量

1. 全批量训练

2. 随机单一样本训练

3. 随机小批量训练

附：完整代码

友情链接更多精彩内容

2.1 TensorFlow实战一：单变量线性方程

一、目标

二、人工生成目标训练集

1. 方案

2. 代码实现

3. 用matplotlib可视化

三、构建模型

四、 训练模型

1. 迭代轮数和学习率

2. 损失函数

3. 优化器

五、创建会话

六、训练批量

1. 全批量训练

2. 随机单一样本训练

3. 随机小批量训练

附：完整代码

友情链接更多精彩内容

四、训练模型