pdf: https://www.aclweb.org/anthology/2020.acl-main.339.pdf
概述:
- 当前有监督的方面术语抽取(Supervised Aspect Term Extraction)基于序列标注(B/I/O)的形式实现。模型对词语标记之后还有一个组合的过程,即B开头加上后面连续的I标记的词语序列作为预测的“方面术语Aspect Term”,这存在边界错误的问题。
- 提出用指针网络(Pointer Network)来重新定位边界。
方法:
- 找出候选:采用序列标注方法,基于BiLSTM+Sefl-Attention+CRF框架,来获取候选方面术语。Loss Function如下:
- 基于指针网络的术语边界重新定位:给定候选方面术语和包含该候选的句子,输出术语首词和术语末词。候选方面术语可以是错误预测的术语,真实术语,也可以是其他文本。
Encoding:设是候选方面(包含n个词),是包含的句子(包含m个词):
词向量初始化,其他分隔符等随机初始化,然后用BERT来微调
Decoding:
Loss Function: 真实方面个数,真实方面术语首词和末词。
- 负例搜集:与真实方面术语部分重合的文本
实验结果: