数学的精彩之处就在于简单的模型可以干大事。
使用语言模型需要知道模型中所有的条件概率,我们称之为模型的参数。通过对语料的统计,得到这些参数的过程称作模型的训练。
之所以敢用对采样数据进行观察的结果来预测概率,是因为有大数定理在背后支持,它的要求是有足够的观测值。
要正确地训练一个语言模型,一个直接的办法就是增加数据量。
古德-图灵估计 Good-Turing Estimate
在统计中相信可靠的统计数据,而对不可信的统计数据打折扣的一种概率估计方法,同时将折扣出来的那一小部分概率给予未看见的事件。
对于没有看见的事件,我们不能认为它发生的概率就是零。因此我们从概率的总量(Probability Mass)中,分配一个很小的比例给这些没有看见的事件。
统计语言模型在形式上非常简单,但是里头的学问却很深。