2019-04-30

softmax函数的求导过程,https://deepnotes.io/softmax-crossentropy

对分子分母都乘以一个常数C,可防止指数次方的数溢出,很容易溢出,比如800的e次方就溢出了。logC = -max(X),新的X = X - Max(X)。

This property of softmax function that it outputs a probability distribution makes it suitable for probabilistic interpretation in classification tasks.

这篇文章对softmax的求导描述的再精确不过了,建议先从cross entropy作为损失函数看起,为什么使用cross entropy作为损失函数?他写的多清楚啊,牛逼。当输出为概率分布时,cross entropy就是用来估计两个概率分布之间的距离的。距离越小越好,损失函数越小越好,梯度下降求极小值。


为什么用cross entropy作为损失函数

当问题是二分类时,我们使用sigmoid函数作为activation,则cross entropy简化成只有两项,当多分类时,yi pi都为向量。对其求导均为dc/dz = zi - yi。这是对一个输入来说的,对于多个输入example比如m个, dc/dz =1/m* sum( zi - yi ),我个人理解这是用了统计学的求平均值。。

stackoverflow
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容