使用框嵌入(box embedding)进行细粒度实体类型识别

1、研究出发点

本次分享一篇有关embedding的文章,来自2021年ACL的paper《Modeling Fine-Grained Entity Types with Box Embeddings》,其核心是提出了一种box embedding的方法来进行实体类型(entity type)识别。研究的动机可以从下面图来说明:

即主流的方法都是采用vector-based的方法,将mention及其所在的文本和所有类别标签表征成向量,然后采用multi-label classification的方法逐个判断是否属于某个实体类型。这类方法会存在一个缺陷就是:表征出来的向量虽然可以用相似性去判断,但区别不了层次性信息,如很难判断"Person","Author","Politican"这三个标签是谁父类,谁是子类,或者二者是否有交叉的关系。基于该问题,论文提出box embedding的表征方法,把任务对象都用超矩形(hyperrectangle)来表征,这样可以用矩形是否包含,是否重叠来识别其归属和层级性关系。

在这里,也许有人会有疑问:在很多该任务场景下,实体类型集合的层级信息(树状结构)都是事先可以知道的,不用去学习。所以,这里要说明下,论文的box embedding是应用在事先不知道label的层级信息的场景,希望用其去学习实体类型集合潜在的层级信息

此外,box embedding还有特性就是:可以用矩形(盒子)的体积来衡量一个mention是否属于某个type的概率

2、Box Embedding 介绍

2.1 关于box embedding定义

一个box x 可以用两个点来表示 (x_m,x_M) ,两个点分别为矩形最小角和最大角,即满足 x_{m,i} \leq x_{M,i} ,其中 i \in \{1,2,...,d \} ,代表坐标维度。关于一个box x 的体积可以这样计算:
Vol(x)=\prod_{i}^{}(x_{M,i} - x_{m,i}) \qquad (1) \\
文中将盒子空间的体积归一化为1,将每个盒子的体积解释为一个mention在给定实体类型的边际概率。此外,对于两个盒子x,y ,将其重叠的体积定义为:
Vol(x \cap y)=\prod_{i}^{}max(min(x_{M,i}-y_{M,i})-max(x_{m,i}-y_{m,i}),0) \qquad (2) \\
x 视为mention的box embedding,y 视为type的box embedding,则可以将识别任务转换成条件概率
P(y|x)=\frac{Vol(x,y)}{Vol(x)} 。

2.2 基于box embedding的Multi-label Type Classifier

有了box embedding定义,接着介绍基于此如何做mention type classification。首先说下输入和输出形式:
input:(s,m) and output: \{t^0,t^1,... \} \in T , 其中 m 为输入mention, s 为mention所在的文本,t 为type label,T 为所有type label集合。

假设输入的(s,m)元组得到对应box embedding 为 x ,所有type label得到对应的box embedding 为
\{y^0,y^1,...\} ,则 预测m 是否属于type labelt^k 可表示为条件概率:
p_\theta(t^k|s,m)=\frac{Vol(z^k)}{Vol(x)}=\frac{Vol(x \cap y^k)}{Vol(x)} \qquad (3) \\

这样就把识别任务转化多标签识别任务,当 p_\theta >0.5 时,就认为属于该类型标签。其思路如下图。

2.3 如何计算条件概率

基于前面的介绍,识别任务变成如何计算公式(3),即定义的条件概率。再考虑该问题时,需要分几步来实现。

首先,如何得到box embedding x,y

关于box embedding y^k ,论文采用初始化的方式,先定义一个中心向量 c_y^ko_y^k ,则box y^k的最小角和最大角可按下列计算:
y_m^k=\sigma(c_y^k-softplus(o_y^k)) \\ \qquad y_M^k=\sigma(c_y^k+softplus(o_y^k)) \qquad (4)

激活函数softplus是为max函数的平滑表示,有利于反向传播计算。为何按上述定义来计算两个角的坐标?这里我理解的是:若按二维,c为矩阵的对角线中心点,o可认为是半径,两个角刚好为+-的关系,而softplus保证计算的是最长对角线,还可以保证结果不为0,\sigma 让向量都取值范围限定在[0,1]范围,这样保证计算的体积<=1并>0。

关于 box embedding x,论文利用BERT进行编码,输入形式为:x = [CLS] m [SEP] s [SEP],得到表征向量H^{[cls]} ,接着进行一层映射得到向量 \hat{H} \in \mathbb{R}^{2d} ,再将其拆分成中心向量c_x和偏移向量o_x ,这样 box x(x_m,x_M) 的向量就可以按公式(4)来计算出来。

有了对应的box embedding ,现在就剩计算公式(3)中分子与分母项。其实按公式(1)(2)可以计算出分子与分母的结果。但文中作者指出原始的计算方式(按max,min)会导致数据过于稀疏,不利于反向传播学习。为此,论文采用Gumbel distributions来计算box的最小角与最大角坐标,视为一种soft box计算方式,并由此来重新计算box的体积,其定义为:
Vol(x)\approx\prod_{i}^{}softplus(\frac{x_{M,i}-x_{m,i}}{\beta}-2\gamma) \qquad (5) \\
其中\beta 为学习的变量, \gamma 为欧拉常数,取值为0.5772。此外,将两个盒子 x,y ,将其重叠的体积z^k 重新定义为
z_m^k=\beta ln(e^{\frac{x_m}{\beta}}+e^\frac{y_m^k}{\beta}) \\ z_M^k=-\beta ln(e^{-\frac{x_M}{\beta}}+e^\frac{-y_M^k}{\beta}) \qquad (6)

这样,公式(3)的分母与分子计算方式就可以按公式(5),(6)的方式来计算,整体计算逻辑也就如上。若想搞清公式(5),(6)的计算原理,需要进一步查阅Gumbel distributions,这里我就“囫囵吞枣”了。

2.4 关于损失函数

关于训练的损失函数就是正常的binary cross-entropy,如下所示。

3、实验部分

文中选了4个mention type classification的分类的数据集: UltraFine Entity Typing (UFET), OntoNotes, FIGER, and BBN。

下图是显示在UFET数据集上实验结果:

下图为在其他三个数据上的结果:

下图为展示“person”“actor”在box embedding可视化效果。可以看出在不少维度上,"person"是包含"actor"的,但并不是所有。说明box embedding在学习潜在层级关系信息上是有效的,但还没达到绝对理想的地步。

4、结尾

本次分享box embedding的缘由是觉得该方法在学习潜在的层级信息上有借鉴或启发的意义,尽管实验结果展示其有效,但并不是惊艳,但觉得该框架下仍有继续优化的空间。个人觉得有两点,(1)关于box的定义就用最小角和最大角来表示,感觉过于简化;(2)在体积和重叠体积计算上,也可尝试新的计算方式。此外,在其他任务场景,像multi-label classification也可以尝试下该方法。

更多文章可关注笔者公众号:自然语言处理算法与实践

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容