What
中文分词系统
Why
已有的分词系统都是建立在character-based sequence labeling基础上的,只有窗口内的信息和相邻tags的interaction会被考虑到。
而该系统utilize complete segmentation history且没有窗口的限制了。
How
综述:1. 利用gated combination neural network over characters生成候选的分词方法。2. 再用LSTM language scoring model给其评分。
首先介绍评分系统:
character embedding, 给每个汉字一个字向量(字向量经训练效果会更好)
-
用gated combination neural network的方法把字向量转变为词向量
图中,w为词向量,c1...cL是字向量。其余为带训练的参数。该方法可有效capture汉字和汉字之间的交互关系。
-
用word score给每个获得的词向量打分。
LSTM来为词与词之间的link关系打分
- 为整个句子打分:link score和word score之和
第二部分是如何获得待评分的分词方法
不能用维特比方法,因为该方法是基于马尔科夫链的假设(只有相邻的词之间才有相互作用,不符合本文利用全部segmentation history的假设)。
故而采用集束搜索。具体可见文中伪代码。
最后介绍训练方法
定义max-margin(hinge loss)为不正确的分词个数乘以平滑参数,并以此定义l2范式形式的损失函数。
由于目标函数不能微分,采用subgradient method训练。