pdf: https://www.ijcai.org/Proceedings/2019/0712.pdf
概述:
- Sememes概念:是词义最小的语义单位, 通常作为词汇语义资源的注释。(Leonard Bloomfield. A set of postulates for the science of language. Language, 1926)
- 利用外部词汇语义资源Sememes,在无监督的框架下建立利用无标注语料的神经网络模型。
- 整体框架类似于自编码器,以句子表示向量作为输入。然后,reconstructed by a linear combination of aspect embeddings and a latent variable sampling from a learned distribution.
模型:
包括编码和解码两步骤。编码阶段将句子表示向量降维压缩成,是方面数目;解码阶段,输出句子表示向量由和方面表示向量集合计算得到,是词向量维度。
编码: (根据输入句向量计算)
解码:
训练目标:
方法一:Aspect Extraction with Sememe Attentions (AE-SA),
句向量:
第个sense表示向量计算:
更新词向量:
更新句向量表示:
方法二:Aspect Extraction via Contextenhanced Sememe Attentions (AE-CSA)
- 在AE-SA中添加RNN结构,利用词义信息按顺序构建输入句子隐藏表示向量。