一、似然与概率的关系
参考链接:https://www.zhihu.com/question/54082000
L(θ|x)=f(x|θ)
这个等式表示的是对于事件发生的两种角度的看法。其实等式两边都是表示的这个事件发生的概率或者说可能性。在给定一个样本x后,我们去想这个样本出现的可能性到底是多大。统计学的观点始终是认为样本的出现是基于一个分布的(贝叶斯统计中的先验分布)。那么我们去假设这个分布为f,里面有参数theta。对于不同的theta,样本的分布不一样。f(x|θ)表示的就是在给定参数theta的情况下,x出现的可能性多大(即我们通俗说的概率,probability)。L(θ|x)表示的是在给定样本x的时候,哪个参数theta使得x出现的可能性多大(这里指似然,likelihood)。在英文中probability和likelihood属于同义词,但是在统计中却反应两个不同的研究对象,只不过在这个等式上是数值相等。所以其实这个等式要表示的核心意思都是在给一个theta和一个样本x的时候,整个事件发生的可能性多大。
概率:在已知某些参数的情况下,预测接下来的观测值出现的概率
似然:在已知某些观测值出现的情况下,对某些事物的性质的参数进行估计
二、为什么要存在似然这个东西呢?
参考链接:https://blog.csdn.net/weixin_40499753/article/details/82977623
似然函数的重要性不在于函数的取值是多少,而在于何时函数取得最大值,可以理解为,当x出现时,参数θ的概率最大,那该θ为该事件下(已发生的事件)最合适的参数。
如上述链接中有关投硬币的例子,当已经发生了连续三次正面的事件,我们在以该事件估计P(正面)的时候,如果不参考先验分布,那应该得出P(正面)=1的结论,因为L(θ|x)=a^3,当a=1时,该函数最大,因此θ=P(正面)=1,为当前事件下估计的最佳参数取值。
三、什么是最大似然估计?
参考链接:https://www.cnblogs.com/tgis/p/10689322.html
最大似然估计:最大似然的意思是,在给定的分布模型下这个结果出现的概率最大,估计的意思就是求得此时分布模型的参数。
通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值
具体的实用案例见上述链接
四、先验概率、后验概率和似然估计
参考链接:https://blog.csdn.net/qq_23947237/article/details/78265026
参考链接2:https://www.zhihu.com/question/24261751/answer/158547500
统计学中用θ表示原因(参数),用x表示结果(发生的随机事件),用P表示概率
后验概率:在知道结果的时候求原因的概率,知果求因,P(θ|x)
先验概率:根据历史经验求原因的概率,知历史求因(与随机事件无关),P(θ)
似然估计:知道原因的前提下求结果,知因求果,P(x|θ)
贝叶斯公式:又称条件概率公式,是沟通三者的桥梁,通过随机抽样的结果,对先验概率的认知进行矫正,使其更符合实际模型中的概率分布

疑问:为什么在似然函数公式中:L(θ|x)=f(x|θ),L(θ|x)与后验概率的公式那么像???而似然估计的公式与概率的公式很像?
二、绝对中位差和标准差
https://www.cnblogs.com/nafio/archive/2004/01/13/13363290.html
简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
在统计学中,绝对中位差是刻画一元数据样本变化的一个鲁棒度量。由公式可以看出,其求解还算简单,给定一个数据样本集,首先求其中位数,然后求原始数据减去中位数的绝对值从而形成一个新的数据样本,再求新的数据样本的中位数即为绝对中位差。比如说有一个数据样本集X={2 3 8 7 9 6 4},这时候数据的中位数是6,原始数据减去中位数求绝对值形成新的数据样本为{4 3 2 1 3 0 2},新的数据样本的中位数是2,所以原始数据样本集合的绝对中位差是2。
绝对中位差这个度量有什么用呢?
绝对中位差较标准差而言对“野”点(outlier)更加的鲁棒。在标准差的计算中,数据点到其均值的距离要求平方,因此对偏离较为严重的点偏离的影响得以加重,也就是说“野”点严重影响着标准差的求解,而少量的“野”点对绝对中位差的影响不大。