中心极限定理:
1.在独立同分布的情况下,无论随机变量的分布函数为何,当数据量充分大的时候,它们的平均值总是近似地服从正态分布。
2.自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。比如LSTM的输出分布是不确定的,但它受到多种不明因素的影响,这时候根据中心极限定理假设它服从高斯分布是一种自然而然的假设。我们或许可以假设LSTM输出分布服从更加复杂的分布比如GMM混合高斯分布、GGD广义高斯分布,因为它们具备更好的建模能力。但它们计算相当复杂,而且不能保证计算的可靠性。
3.GMM
3.1什么是GMM?
多个高斯分布的加权求和叫GMM。
3.2求解困难在哪里?
多个p(x)相乘,如果用极大似然估计取log等式右边无法计算。
3.3怎么解决? EM算法(Expectation-Maximum)
我们没法知道每个样本X是来自哪个分量,但是可以知道这个样本处于每个分量的概率是多少
E-step最大化样本的期望
M-step寻找使Q函数最大的参数值
重复计算 E-step 和 M-step 直至收敛