参考:
- 关于Intriguing properties of neural networks的理解 | CSDN
- 论文阅读笔记:Intriguing properties of neural networks | CSDN
记号说明:
本文提出了两个重要的观点,作者表述为“properties of neural neural networks":
观点一 关于神经网络的语义分析,以前的研究工作持有这样的观点:神经网络的语义信息独立地 (individually) 保存在每一个神经元内,特别是在最后一个隐藏层中,每一个神经元都可以作为数据的一个语义特征 (semantic feature)。以上观点可以用如下式子表述:
这个表达式的意思是找到图像x',使得φ(x)在ei方向的分量最大,也就是说图像x'最突出地反映了ei分量所在的神经元代表的语义特征。找到许多满足式子的x',就可以总结出单个神经元所代表的语义特征。
实验结果:
作者修改实验如下:
这时不再取某个神经元所在的单位方向矢量ei,而是取向量空间里的一个随机单位矢量v,同样找到满足式子的图像集合。作者发现,这样找到的集合同样具有相似的语义特征。
实验结果:
因此作者认为:神经网络的语义特征不存在于独立的神经元中,而存在于整个神经元激活的空间内。
观点二 对抗性样本 (adversarial examples) 很容易找到,且似乎与数据集的分布有关,而与神经网络的超参数无关。