把代价函数写到一起: 最大似然估计,得出来的式子。 这个代价函数它是凸的(convex),所以使用梯度下降可以获得全局最优解。 梯度下降(gradient descent ): 线性回归的特征缩放(提高梯度下降的速度)在逻辑回归中依然可以使用。