之前在学statistics1的时候我根本看不懂内容,全程死记乱背,哪怕是最基础的,似然函数(likelihood function),
当时只是纯属记住了公式,没有理解,书一翻就忘。
如果不理解,哪怕做了再多的笔记也没用,到时候该忘的都会忘掉。
相关链接:
如何理解似然函数(L)与极大似然估计(MLE):https://zhuanlan.zhihu.com/p/32568242
似然(likelihood)与概率(probability)的区别:https://zhuanlan.zhihu.com/p/42598338
似然函数
只要有统计模型,就会有似然函数,(似然函数是建立在统计模型上的)
给定输出X(x1,x2...)时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)。
似然函数并不仅仅概率,而是已知
- 给定参数θ后,
- 根据数学统计模型,
变量X的概率。
是根据“概率”、“数学统计模型”、“参数”这些抽象概念为基础,而建立的更高一级抽象。
极大似然估计(MLE)
得到似然函数后,可以推导出极大似然估计(MLE) ,
那么极大似然函数估计的意义是什么呢?
“极大似然函数”,是通过似然函数来估计数学统计模型的参数。
“有了似然函数,我们就可以用似然函数来估计模型的参数了。根据直觉,看起来最似然的地方应该就是参数最合理的估计,转化为数学语言是我们要估计的模型的参数就是使得似然函数取极大值的参数。”----知乎
虽然我们已知输出X(x1,x2....),已知统计模型类型(normal,Bernoulli...),但我们还不知道参数,
所以我们需要一个尽量似然(精确)的估计值来预测,完整的数学统计模型。
那么为什么“极大似然估计”可以得到最似然(精确)的估计值呢?
根据输出X(x1,x2...),和统计模型类型(例如normal,Bernoulli...),再通过似然函数,所得到一个似然值。
似然值的大小会根据“统计模型的参数”而改变,
而似然值大小的意义在于,
似然值越大,也就意味着根据这个统计模型的参数得到的输出Y(output Y),和原本的输出X(x1,x2....)数据重合的概率越大,这个参数的估计值也就越拟合(接近)原本的数值。
Frequentist risk (loss function)
Frequentist risk,,
其实就是一种已知的loss function ,
此文章是在说,仅仅是有一个frequentist risk还不够去计算optimal decision rules,需要从一组decision rules中挑选出使frequentist risk降到最低才能找到admissible“可接受的”decision rule。
admissible
Definition 2.3 A decision rule δ is admissible if there exists no decision rule δ0 such that R(θ, δ0 ) ≤ R(θ, δ), ∀θ ∈ Θ with the above inequality being strict for at least one θ ∈ Θ.