memm模型存在局部归一化的问题,导致预测序列倾向于选择那些转移状态(transfer)比较少的节点,但是如果不归一化会存在什么问题呢?
当我们使用最大熵、贝叶斯或者其它分类模型,预测当前字“好”可能归属于{S,B,E,M}中哪个状态时,得到的是一个总和为1的概率矩阵,比如{0.1, 0.3, 0.5, 0.1},但是,前一个状态S只有可能转移到当前状态为B或者S,不可能转移到M和E,所以其转移矩阵P{S,B,E,M}可能等于{0.3, 0, 0, 0.7},这样“好”字对应于B,S的发射概率只有0.3和0.5,其余的0.2是不起作用的,但是直接忽略掉这0.2会造成了模型的整体误差,所以需要把0.3和0.5进行归一化变成3/8和5/8,这也就是局部归一化。
但是,经过局部归一化之后,因为S的转出状态比较少,导致转移概率*发射概率 相对于转出状态多的B而言是比较大的,这会使模型倾向于更多的选择状态S。