只是一个相当简化的计算过程,为了体现真实的梯度下降是如何计算的。这里遇到一个有趣的现象:损失函数对权重w和偏置b各自的偏导数,在带入同一个训练数据时,计算的结果总是相同的,很神奇,后面有时间再详细思考一下原因。