条件随机场(Conditional Random Field,简称CRF)是一种判别式无向图模型,我们都知道,生成式模型直接对联合分布进行建模,而判别式模型则是对条件分布进行建模,马尔可夫随机场是生成式模型,而条件随机场是判别式模型。
条件随机场试图对多个变量在给定观测值后的条件概率进行建模,具体来说,若给定观测序列x,以及标记序列y,条件随机场的目的就是构建条件概率模型p(y|x),需注意的是,标记变量y可以是结构型变量,即其分量之间具有某种相关性,例如在自然语言的词性标注任务中,观测数据为语句(即单词序列)。标记为相应的词性序列,具有线性序列结构,如下图所示,输出为树形结构的语法树:
我们根据马尔可夫性,有如下的关系:
理论上说,图G可以有任意的结构,只要能表示标记变量之间的条件独立性关系即可。但在实际应用中,尤其对标记序列建模时,最常用的是下图所示的链式结构,即“链式条件随机场”,这也是我们用到最多的条件随机场类型:
与马尔可夫随机场类似,条件随机场使用势函数和图结构上的团来定义条件概率P(y|x),给定观测序列x,链式条件随机场主要包含两种关于标记变量的团,即单个标记变量yi,以及相邻的标记变量{yi-1,yi},选择合适的势函数,可以得到下面的条件概率定义,在条件随机场中,通过选用指数势函数并引入特征函数,条件概率被定义为: