- 输入层、隐藏层、输出层的数目分别为2、3、1;
- 隐藏层和输出层的激活函数使用的是 ReLU;
- 训练的样本总数为 512,每次迭代读取的批量为 10;
- 交叉熵为损失函数,并使用 Adam 优化算法进行权重更新。
import tensorflow as tf
from numpy.random import RandomState
batch_size= 10
w1=tf.Variable(tf.random_normal([ 2 , 3 ],stddev= 1 ,seed= 1 ))
w2=tf.Variable(tf.random_normal([ 3 , 1 ],stddev= 1 ,seed= 1 ))
# None 可以根据batch 大小确定维度,在shape的一个维度上使用None
x=tf.placeholder(tf.float32,shape=( None , 2 ))
y=tf.placeholder(tf.float32,shape=( None , 1 ))
#激活函数使用ReLU
a=tf.nn.relu(tf.matmul(x,w1))
yhat=tf.nn.relu(tf.matmul(a,w2))
#定义交叉熵为损失函数,训练过程使用Adam算法最小化交叉熵
cross_entropy=-tf.reduce_mean(y*tf.log(tf.clip_by_value(yhat, 1e-10 , 1.0 )))
# Adam提供学习速率和损失函数两个参数,更新权重
train_step=tf.train.AdamOptimizer(0.001).minimize(cross_entropy)
# 随机数种子随便设定
rdm= RandomState(1)
data_size= 516
#生成两个特征,共data_size个样本
X=rdm.rand(data_size, 2)
#定义规则给出样本标签,所有x1+x2<1的样本认为是正样本,其他为负样本。Y,1为正样本
Y = [[int(x1+x2 < 1 )] for (x1, x2) in X]
with tf. Session () as sess:
sess.run(tf.global_variables_initializer())
print (sess.run(w1))
print (sess.run(w2))
steps= 11000
for i in range(steps):
#选定每一个批量读取的首尾位置,确保在1个epoch内采样训练
start = i * batch_size % data_size
end = min(start + batch_size,data_size)
sess.run(train_step,feed_dict={x:X[start:end],y:Y[start:end]})
# 每1000次输出一次结果
if i % 1000 == 0 :
training_loss= sess.run(cross_entropy,feed_dict={x:X,y:Y})
print( "在迭代 %d 次后,训练损失为 %g" %(i,training_loss))
注意:
tf.nn.relu() 代表调用 ReLU 激活函数;
tf.matmul() 为矩阵乘法;
tf.clip_by_value(yhat,1e-10,1.0) 这一语句代表的是截断 yhat 的值,因为这一语句是嵌套在 tf.log() 函数内的,所以要确保 yhat 的取值不会导致对数无穷大;
tf.train.AdamOptimizer(learning_rate).minimize(cost_function) 是进行训练的函数,其中采用的是 Adam 优化算法更新权重,并且需要提供学习速率和损失函数这两个参数;
后面就是生成训练数据,X=rdm.rand(512,2) 表示随机生成 512 个样本,每个样本有两个特征值。
最后就是迭代运行了,这里计算出每一次迭代抽取数据的起始位置(start)和结束位置(end),并且每一次抽取的数据量为前面我们定义的批量,如果一个 epoch 最后剩余的数据少于批量大小,那就只是用剩余的数据进行训练。
最后两句代码是为了计算训练损失并迭代一些次数后输出训练损失。这一部分代码运行的结果如下: