多项式分布
我们知道,对于有个不同可能目标变量取值的学习问题,使用多项式分布(multinominal distribution)来建模。但是为什么参数化多项式分布时,为什么不选择个参数,而是个参数呢?
正则化公理
我们所选择的参数的含义是对应各自输出值的概率大小。这样一来,最后一个输出值的概率可以由正则性公理得到 因此只有个参数是相互独立的。
延伸
一个类似但不同的问题是,为什么总体方差的无偏估计的系数是而非? 知乎有对这个问题专门的讨论。
我们知道,对于有个不同可能目标变量取值的学习问题,使用多项式分布(multinominal distribution)来建模。但是为什么参数化多项式分布时,为什么不选择个参数,而是个参数呢?
我们所选择的参数的含义是对应各自输出值的概率大小。这样一来,最后一个输出值的概率可以由正则性公理得到 因此只有个参数是相互独立的。
一个类似但不同的问题是,为什么总体方差的无偏估计的系数是而非? 知乎有对这个问题专门的讨论。