(1)交叉熵只关心对正确类别的预测概率,因为只要其值足够大,就可以确保分类正确
(2)最小化交叉熵损失函数等价于最大化训练数据集的所有标签类别的联合预测概率
困惑度
困惑度是对交叉熵损失函数做指数运算后得到的值,loss用的事ce loss,再求指数获取困惑度。
(1)交叉熵只关心对正确类别的预测概率,因为只要其值足够大,就可以确保分类正确
(2)最小化交叉熵损失函数等价于最大化训练数据集的所有标签类别的联合预测概率
困惑度
困惑度是对交叉熵损失函数做指数运算后得到的值,loss用的事ce loss,再求指数获取困惑度。