内容来自哈工大车万翔老师团队的作品《自然语言处理:基于预训练模型的方法》。
3. 语言模型性能评价
如何评价一个语言模型的好坏呢?
- 外部任务评价:将模型应用于具体的外部任务(如机器翻译),并根据该任务上指标的高低对语言模型进行评价。但是此方法计算代价较高,实现难度也大。
- 基于困惑度(Perplexity, PPL)的内部评价方式:详述如下
- 讲述数据划分为不相交的集合:训练集和测试集,用于估计语言模型的参数。得到的模型计算测试集的概率则反映了模型在测试集上的泛化能力。
- 假设测试集(每个句子开始和结束分别增加和标记),则测试集的概率为:
-
困惑度则为模型分配给测试集中每一个词的概率的几何平均值的倒数:
几何平均数_百度百科 (baidu.com)
每日丁点 | 几何平均数是啥 - 知乎 (zhihu.com)
例,对于bigram模型而言:
-
实际使用中,考虑多个概率相乘可能带来浮点数下溢的问题,通常将式(2-18)转化为对数和形式:
- 困惑度的意义:
困惑度越小,意味着单词序列的概率越大,也意味着模型能够更好解释测试集中的数据。
困惑度越低的语言模型并不总是能在外部任务上取得更好的性能指标,但是二者之间通常呈现一定的正相关性。