一. 常用优化方法
最小二乘法,牛顿法,拟牛顿法,梯度下降法
二. tensor和numpy array的相互转换
- 定义一个numpy array
np_data = np.arange(6).reshape((2,3))
- numpy array转tensor
tensor_data = torch.from_numpy(np_data)
- tensor转numpy array
numpy_array = tensor_data.numpy()
三. Variable
- tensor不能反向传播,Variable可以反向传播
tensor = torch.FloatTensor([[1,2],[3,4]])
# requires_grad是参不参与误差反向传播, 要不要计算梯度
variable = Variable(tensor, requires_grad=True)
v_out.backward() # 模拟 v_out 的误差反向传递
# v_out = 1/4 * sum(variable*variable) 这是计算图中的 v_out 计算步骤
# 针对于 v_out 的梯度就是, d(v_out)/d(variable) = 1/4*2*variable = variable/2
print(variable.grad) # 初始 Variable 的梯度
- Variable 计算时, 会在后台同时搭建计算图, computational graph。计算图将所有的计算步骤 (节点) 都连接起来,最后进行误差反向传递的时候,一次性将所有 variable 的梯度都计算出来, 而 tensor无法计算梯度。
- 获取 Variable 里面的数据
直接print(variable)会输出 Variable 形式的数据,在很多时候是用不了的(比如想要用 plt 画图),所以需要将Variable变成 tensor 形式。
print(variable) # Variable 形式
print(variable.data) # tensor 形式
print(variable.data.numpy()) # numpy 形式
四. Activation Function
CNN中推荐使用relu
RNN中推荐使用relu或tanh