刷遍了教程,常用的activation function都已经烂熟于心,但阅读文章的时候还是会遇到新的activation function,本文就将它们做个小小的总结。
Swish
- f(x) = x · sigmoid(x)
- Google Brain Team提出
- Google Brain Team表示Swish的效果比ReLU好
- self-gating: 其中gating其实就是公式里的sigmoid部分。
-
与ReLU相比,Swish在负数区间依然是可导的,故而可以训练更深的网络。
刷遍了教程,常用的activation function都已经烂熟于心,但阅读文章的时候还是会遇到新的activation function,本文就将它们做个小小的总结。
与ReLU相比,Swish在负数区间依然是可导的,故而可以训练更深的网络。