机器学习:极大似然估计

极大似然估计(Maximum Likelihood Estimate,MLE)
  
由于样本数据,是实实在在发生的数据,有理由相信该样本出现的概率本来就比较大,极大似然估计假设该样本出现的概率是最大的,然后通过该样本寻找一组参数,该参数使得该样本出现的概率最大
  
比如:班里有 50 个男生,50 个女生,我们拥有所有男生的身高数据,也拥有所有女生的身高数据,假定男生的身高服从正态分布,女生的身高服从另一个正态分布,这时可以用极大似然法,通过 50 个男生和 50 个女生的样本来估计这两个正态分布的参数,该参数使得样本数据出现的概率最大
  
设有样本 \small X = (x_{1}, x_{2}, ..., x_{n})
预测算法的参数为 \small \theta,不同参数下 X 出现的概率不同,表示为
  
  \small P(X|\theta) = P(x_{1}, x_{2}, ..., x_{n}|\theta) = \prod_{i=1}^{n}P(x_{i}|\theta)
  
极大似然估计就是求解使得 \small P(X|\theta) 为最大值的 \small \theta
  
实际中为了方便计算,经常改成对数形式
  
  \small ln(\prod_{i=1}^{n}P(x_{i}|\theta)) = \sum_{i=1}^{n}(ln(P(x_{i}|\theta)))
  
以上面例子中的正态分布为例,一维正态分布函数为
  
  \small f(x) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^{2}}{2 \sigma^{2}})
  
则有
  
  \small P(X|\theta) = \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_{i}-\mu)^{2}}{2 \sigma^{2}})
  
      \small = (2\pi\sigma^{2})^{-\frac{n}{2}}exp(-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2})
  
取对数
  
  \small H(\mu,\sigma^{2}) = ln(P(X|\theta))
  
       \small = ln((2\pi\sigma^{2})^{-\frac{n}{2}}exp(-\frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}))
  
       \small = -\frac{n}{2}ln(2\pi)-\frac{n}{2}ln(\sigma^{2}) - \frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}
  
求导得到
  
  \small \frac{\partial H(\mu,\sigma^{2})}{\partial \mu} =\frac{1}{\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\mu)
  
  \small \frac{\partial H(\mu,\sigma^{2})}{\partial \sigma^{2}}=-\frac{n}{2\sigma^{2}}+ \frac{1}{2\sigma^{4}}\sum_{i=1}^{n}(x_{i}-\mu)^{2}
  
另导数为 0 求解得到
  
  \small \mu=\frac{1}{n}\sum_{i=1}^{n}x_{i}
  
  \small \sigma^{2} = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}
  
这两个参数使得样本出现的概率最大
于是就用这两个参数代入正态分布函数,用以预测新的数据



最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容