从神经网络的方面来看:
最大似然的思想:
但是logistic有很多缺陷,比如下图,在平面上,无法对其进行分类,所以我们希望对于feature进行转换
x表示到00的距离,y表示到11的,就可以使得这些点变得线性可分
如何使得机器自动进行transform??
中间那两个logistic的作用是feature的转换,将这一层的输出作为一下层的输入,可以做到将很多个逻辑回归叠加在一起。
dong
动态的调节learning rate
最合适的步长不仅仅与一介骗倒,用一阶来估算二阶的,因为二阶的计算复杂度很大,所以涉及到这里
希望走的步长与一阶倒数成正比,但是一阶没有办法跨参数来比较,因为那样子就会不准确
还要考虑二阶倒数,但是为什么不直接用二阶呢,计算复杂,为什么这一项可以用来估算二阶导数
SGD:
原来是所有的点都加起来做loss function,现在是随机的选一些点,然后做