迭代30000次，loss=0.0984，学习率=0.1，数字图片分类效果一般

迭代40000次，loss=0.0352,学习率=0.1，数字图片分类效果较好

画出了loss曲线图，可以看出，在loss=4附近，loss曲线发生短暂上升，之后持续下降；其中在迭代10000次左右后，下降速度趋缓。

对预测值y按照阈值法进行了分类，分类函数为classify_id(result)

具体结果：

学习率=0.1

epoch=39999,loss=tensor([[0.0353]], grad_fn=),weights=tensor([ 0.2679,-1.1017, 75.4234, -27.5171, -49.4079, 15.8718, -13.4961, 95.7110, -14.0505,-56.6473, -106.9320, 0.5181, 102.3565], grad_fn=)

干货

线性回归（Linear Regression)

线性回归假设目标值与特征之间线性相关，即满足一个多元一次方程。通过构建损失函数，来求解损失函数最小时的参数w和b。

$\hat{y} =\omega x+b$

线性回归算法步骤：

1、先令w=w0（初始化w）

2、把w0代入model输出

3、观察模型输出 $\hat{y}$ 与期望值y*

4、如果输出 $\hat{y}$ 与期望相同，求解完成（ $\hat{y} =y*$ )

5、如果不同，以一定规则更新w，即w1=R(w)

6、把w1代入model，得到模型输出

7、转到第三步

线性回归算法的关键问题有2个：

1、如何观察输出与期望之间的差？

2、更新w的规则如何制定？

对于第一个关键问题——

定义Loss 函数： $loss=\sum_{i}^j(\hat{y} -y*)^2$

解决第二个关键问题——第一种思路是用最小二乘法(least square method)；第二种思路，就用到大名鼎鼎的“梯度下降”(gradient descent)了。

梯度下降法(gradient descent)是一个最优化算法，常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型。

梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。

如果说在机器学习领域有哪个优化算法最广为认知，用途最广，非梯度下降算法莫属。梯度下降算法是一种非常经典的求极小值的算法，比如在线性回归里我们可以用最小二乘法去解析最优解，但是其中会涉及到对矩阵求逆，由于多重共线性问题的存在是很让人难受的，无论进行L1正则化的Lasso回归还是L2正则化的岭回归，其实并不让人满意，因为它们的产生是为了修复此漏洞，而不是为了提升模型效果，甚至使模型效果下降。但是换一种思路，比如用梯度下降算法去优化线性回归的损失函数，完全就可以不用考虑多重共线性带来的问题。其实不仅是线性回归，逻辑回归同样是可以用梯度下降进行优化，因为这两个算法的损失函数都是严格意义上的凸函数，即存在全局唯一极小值，较小的学习率和足够的迭代次数，一定可以达到最小值附近，满足精度要求是完全没有问题的。并且随着特征数目的增多（列如100000），梯度下降的效率将远高于去解析标准方程的逆矩阵。神经网络中的后向传播算法其实就是在进行梯度下降，GDBT(梯度提升树)每增加一个弱学习器（CART回归树）,近似于进行一次梯度下降，因为每一棵回归树的目的都是去拟合此时损失函数的负梯度，这也可以说明为什么GDBT往往没XGBoost的效率高，因为它没办法拟合真正的负梯度，而Xgboost 的每增加的一个弱学习器是使得损失函数下降最快的解析解。