阅读笔记:Embarrassingly Simple Unsupervised Aspect Extraction

pdf:https://www.aclweb.org/anthology/2020.acl-main.290.pdf

特点:

- 简单的无监督的方面提取方法

- 只需要利用POS标注和领域词向量

- 在小规模数据级上训练

- 模型自动进行分配方面标签。

模型示意图:

方法:

step 1:aspect term extraction. use spaCy for tokenization and POS tagging

step 2:  aspect selection using Contrastive Attention. 

                      att = \frac{\sum\nolimits_{a\in A}{\rm rbf}(w, a, \gamma ) }{\sum\nolimits_{w\in S}\sum\nolimits_{a\in A}{\rm rbf}(w, a, \gamma ) } (rbf, Radial Basis Function)

                         d=\sum_{i}att_iS_i

                S:  a sequence of word embeddings

                A:  aspect representation vectors

                       {\rm rbf}(x,y,\gamma )={\rm exp}(-\gamma\left \| x-y\right \|_2^2)

Step 3: assigning aspect labels.

                      \hat{y} ={\rm argmax}_{c\in C} (cos(d,\vec{c})) 

                C:the set of aspect labels.   计算时采用方面标签的词向量。

分析:

- The in-domain word embeddings are required to achieve good performance. 

- Several of the errors relate to Out-of-Vocabulary (OOV) or low-frequency items,

- Because restricting to nouns, the model also misses aspects expressed in verbs

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容