语言模型是自然语言处理的重要技术
语言模型可用于提升语音识别和机器翻译的性能
(1)同音词选择——eg.厨房里食油用完了 食油or石油
(2)词序调整——eg.you go first 你走先or你先走
语言模型的计算——文本序列概率
例如,一段含有4个词的文本序列的概率
P(w 1 ,w 2 ,w 3 ,w 4 )=P(w 1 )P(w 2 ∣w 1 )P(w 3 ∣w 1 ,w 2 )P(w 4 ∣w 1 ,w 2 ,w 3 )
N元语法——基于n−1阶马尔可夫链的概率语言模型,其中n权衡了计算复杂度和模型准确性
即如果n=1,那么有P(w3∣w1,w2)=P(w3∣w2)P(w3∣w1,w2)=P(w3∣w2)
例如,长度为4的序列w1,w2,w3,w4w 1 ,w 2 ,w 3 ,w 4 在一元语法、二元语法和三元语法中的概率
P(w 1 ,w 2 ,w 3 ,w 4 ) =P(w 1 )P(w 2 )P(w 3 )P(w 4 ),
=P(w 1 )P(w 2 ∣w 1 )P(w 3 ∣w 2 )P(w 4 ∣w 3 )
=P(w 1 )P(w 2 ∣w 1 )P(w 3 ∣w 1 ,w 2 )P(w 4 ∣w 2 ,w 3 ).