bert的trick理解-gelu损失函数

GELU 激活函数

损失函数详解:https://mp.weixin.qq.com/s/pA9JW75p9J5e5KHe3ifcBQ

参考链接:https://blog.csdn.net/liruihongbob/article/details/86510622

原理上其实就是GELUs正是在激活中引入了随机正则的思想,是一种对神经元输入的概率描述,直观上更符合自然的认识,同时实验效果要比Relus与ELUs都要好。

gelu的损失函数图:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容