语言模型与数据集

语言模型是自然语言处理的重要技术

语言模型可用于提升语音识别和机器翻译的性能

(1)同音词选择——eg.厨房里食油用完了   食油or石油

(2)词序调整——eg.you go first    你走先or你先走

语言模型的计算——文本序列概率

例如,一段含有4个词的文本序列的概率

P(w 1 ​ ,w 2 ​ ,w 3 ​ ,w 4 ​ )=P(w 1 ​ )P(w 2 ​ ∣w 1 ​ )P(w 3 ​ ∣w 1 ​ ,w 2 ​ )P(w 4 ​ ∣w 1 ​ ,w 2 ​ ,w 3 ​ )

N元语法——基于n−1阶马尔可夫链的概率语言模型,其中n权衡了计算复杂度和模型准确性

即如果n=1,那么有P(w3∣w1,w2)=P(w3∣w2)P(w3∣w1,w2)=P(w3∣w2)

例如,长度为4的序列w1,w2,w3,w4w 1 ​ ,w 2 ​ ,w 3 ​ ,w 4 ​ 在一元语法、二元语法和三元语法中的概率

P(w 1 ​ ,w 2 ​ ,w 3 ​ ,w 4 ​ ) ​=P(w 1 ​ )P(w 2 ​ )P(w 3 ​ )P(w 4 ​ ),

                                       =P(w 1 ​ )P(w 2 ​ ∣w 1 ​ )P(w 3 ​ ∣w 2 ​ )P(w 4 ​ ∣w 3 ​ )

                                       =P(w 1 ​ )P(w 2 ​ ∣w 1 ​ )P(w 3 ​ ∣w 1 ​ ,w 2 ​ )P(w 4 ​ ∣w 2 ​ ,w 3 ​ ). ​

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。