Learning Robust Representations of Text

论文网址:https://aclweb.org/anthology/D16-1207

摘要:深度神经网络在许多语言处理方面取得了很好的效果,但很多神经网络的结果对噪声扰动很敏感。论文提出了一种正则化方法,对输入的扰动所造成的敏感结果进行约束,从而提高模型的鲁棒性。实验使用卷积网络对数据集进行训练,和基线(不使用正则化)、drought相比,论文提出的正则化方法取得了最好的效果。


论文中提到传统正则化和drought的比较,其中l2正则的效果和drought效果相当。

传统的模型训练目标是最小化y_true 和 y_pred ,为了提高模型的鲁棒性,我们也希望当噪声添加到input时,输出结果的变化也能最小。用数学公式表示如下:


模型M(x)输入变化px时输出具有py变化

从而:


最小化噪声造成的影响等价于最小化输出对输入的偏导矩阵的弗罗贝尼乌斯范数


为了最小化扰动噪声的影响,论文对损失函数添加了附加项——L对h的偏导。文中提及,原则上应该考虑x的扰动,但x的离散性质添加了数学公式的复杂性,便推迟了这个研究。

最后,代价函数的设计为:


new loss function

其中,lambda是权重项,distance使用l2正则形式。


最后文章提到cnn网络:


名词解释


对句子表示进行k个卷积、非线性变换,然后最大池化


w and b are parameters


minimize the loss of the cross-entropy
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容