线性回归

线性回归：线性回归输出是⼀一个连续值，因此适⽤用于回归问题。

线性回归的基本要素: 模型、数据集、损失函数、优化函数

1.1模型

为了简单起见，这里我们假设价格只取决于房屋状况的两个因素，即面积（平方米）和房龄（年）。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:

price=warea⋅area+wage⋅age+bprice=warea⋅area+wage⋅age+b

1.2数据集

我们通常收集一系列的真实数据，例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实价格的误差最小。在机器学习术语里，该数据集被称为训练数据集（training data set）或训练集（training set），一栋房屋被称为一个样本（sample），其真实售出价格叫作标签（label），用来预测标签的两个因素叫作特征（feature）。特征用来表征样本的特点。

1.3损失函数

在模型训练中，我们需要衡量价格预测值与真实值之间的误差。通常我们会选取一个非负数作为误差，且数值越小表示误差越小。一个常用的选择是平方函数。它在评估索引为 ii 的样本误差的表达式为

l(i)(w,b)=12(y^(i)−y(i))2,l(i)(w,b)=12(y^(i)−y(i))2,

L(w,b)=1n∑i=1nl(i)(w,b)=1n∑i=1n12(w⊤x(i)+b−y(i))2.L(w,b)=1n∑i=1nl(i)(w,b)=1n∑i=1n12(w⊤x(i)+b−y(i))2.

1.4优化函数 - 随机梯度下降

当模型和损失函数形式较为简单时，上面的误差最小化问题的解可以直接用公式表达出来。这类解叫作解析解（analytical solution）。本节使用的线性回归和平方误差刚好属于这个范畴。然而，大多数深度学习模型并没有解析解，只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。这类解叫作数值解（numerical solution）。

在求数值解的优化算法中，小批量随机梯度下降（mini-batch stochastic gradient descent）在深度学习中被广泛使用。它的算法很简单：先选取一组模型参数的初始值，如随机选取；接下来对参数进行多次迭代，使每次迭代都可能降低损失函数的值。在每次迭代中，先随机均匀采样一个由固定数目训练数据样本所组成的小批量（mini-batch）BB，然后求小批量中数据样本的平均损失有关模型参数的导数（梯度），最后用此结果与预先设定的一个正数的乘积作为模型参数在本次迭代的减小量。

(w,b)←(w,b)−η|B|∑i∈B∂(w,b)l(i)(w,b)(w,b)←(w,b)−η|B|∑i∈B∂(w,b)l(i)(w,b)

学习率: ηη代表在每次优化中，能够学习的步长的大小

批量大小: BB是小批量计算中的批量大小batch size

总结一下，优化函数的有以下两个步骤：

(i)初始化模型参数，一般来说使用随机初始化；

(ii)我们在数据上迭代多次，通过在负梯度方向移动参数来更新每个参数。

2 线性回归模型使用pytorch的简洁实现

#本节代码描述了线性回归的简洁表示

import torch

import numpyas np

import torch.utils.dataas Data

import torch.nnas nn

from torch.nnimport init

import torch.optimas optim

num_inputs =2

num_examples =1000

true_w = [2.0,-3.4]

true_b =4.2

#创建线性数据集

features = torch.tensor(np.random.normal(0,1,(num_examples,num_inputs)),dtype = torch.float)#随机创建两组正太分布的特征数据1000*2

labels = true_w[0]*features[:,0] + true_w[1]*features[:,1] + true_b#设置(模拟)真实标签1000

labels +=torch.tensor(np.random.normal(0,0.01,size=labels.size()),dtype = torch.float)#生成一个含有随机噪声的标签1000

print("特征:",features[0],"\n标签:",labels[0])

#使用pytorch中的data包来读取数据

batch_size =10

dataset = Data.TensorDataset(features,labels)#将训练数据的特征和标签组合

data_iter = Data.DataLoader(dataset,batch_size,shuffle=True)#随机读取小批量数据

#通过nn.Sequential来定义线性网络

net = nn.Sequential(nn.Linear(num_inputs,1)

# nn.ReLU()

)

#使用pytorch init 模块初始化模型参数

init.normal_(net[0].weight,mean=0,std=0.01)#将权重参数每个元素初始化为采样于均值为0,标准差为0.01的正太分布,

init.constant_(net[0].bias,val=0)#偏差会初始化为0

#print("网络:",net)

#定义损失函数

loss = nn.MSELoss()

#梯度优化算法

opt = optim.SGD(net.parameters(),lr=0.03)

#训练模型

num_epochs =3

for epochin range(1,num_epochs+1):

for X,yin data_iter:

y_pred = net(X)

l = loss(y_pred,y.view(10,1))

opt.zero_grad()#梯度清零

l.backward()

opt.step()

print('epoch:{}, loss:{:.6f}'.format(epoch,l.item()))

dense = net[0]

print(true_w,dense.weight)#权重

print(true_b,dense.bias)#偏移

注：本文章部分内容摘取自《动手学深度学习》，如有侵权，请联系作者删除

《动手学》笔记1 线性回归