1、概率 & 似然
概率是在知道参数的情况下,预测接下来可能出现的结果。
似然是在已知观测结果时,对有关事物的性质的参数进行估计。
2、泛化能力
即模型举一反三的能力,如果对训练集很友好,而对测试集不友好,则说明泛化能力差,过拟合。
3、归纳偏好
举个栗子,就用大佬爱吃的西瓜为例。我们现在要去买西瓜,而判断买不买的标准(特征/属性)
有三个,颜色/瓜藤弯曲程度/响声(其实我忘记西瓜书常用的特征是什么了,就以这三个为例吧,hhh)。
如果我们从别人那寻得的经验不够多,只总结出来了一下三条(*表示不关心此特征):
- 深绿,瓜藤弯曲,* =>瓜甜,买了
- 浅绿,瓜藤直直,* =>不甜,没钱
- *, *, 响声闷 =>瓜甜,买了
那么现在来了个浅绿&瓜藤直直&响声闷的瓜,根据以上三条经验,我是买还是不买呢?毕竟口袋空空,万一买了个不甜的瓜,可就亏大发了。
所以,这时,要么把这三个特征排列组合的经验都收集了。要么设置个偏好,比如我对三个特征的关注程度为颜色>瓜藤弯曲程度>响声
,那么问题就解决了,我就不用担心买错瓜了!
4、AI 是一门预测的学问
概率论有两种思想学派主导。
一方是频率派,坚信随机事件发生的频次才能刻画概率。
另一方则是贝叶斯派,认为概率应该表示事件发生的不确定性大小。这时不仅要描述事件的不确定性,还要考虑选择模型的不确定性。贝叶斯理论希望确定最佳模型下参数的不确定性(最大熵模型)。贝叶斯学派建立的概率理论更适用于机器学习。
5、先验概率 & 后验概率 & 似然函数
参考:一个例子搞清楚(先验分布/后验分布/似然估计)
先验概率、后验概率以及共轭先验
哇咔咔,在搞了几个小时查了n多网页之后,终于弄明白了,那叫一个醍醐灌顶,那叫一个恍然大悟,那叫一个豁然开朗!不过现在自己可能理解地还是不是很透彻,留个坑,日后补充自己地看法。看不懂我写的内容的读者可移步参考链接,以更加深入地了解。
背景:现在隔壁老王有三种交通方式,步行/骑行/开车,去公园。
我们要研究老王到达公园的时间,这是结果,也是我们要观察的随机事件,记为 X
。达到去公园这个目的的原因,是三种交通方式,记为 theta
。
先验概率
在结果发生前根据历史经验推断原因的概率分布,也称古典概率。
放到背景中,就是老王还没出发,我们根据他懒的特质,可以预测他到公园会开车。这时候交通方式和到达公园花费的时间没什么关系,毕竟他还没有动身。
记为p(交通方式)
/p(历史条件下的原因)
/p(theta)
。
后验概率
在已知结果后计算事件发生的原因的概率分布,也称条件概率。自变量是 X。
放到背景中,就是老王到了公园,我们知道他花费了多少时间,我们要根据他花费的时间估计他是采用的哪种交通方式。
记为p(交通方式|花费时间)
/p(因|果)
/p(theta|X)
。
似然函数
自变量是参数的函数,记为L(theta|X)
,在数值上等于p(X|theta)
。先定下来原因,根据原因来估计结果的概率分布即 似然估计
。根据原因来统计各种可能结果的概率即似然函数
。
放到背景中,同样是我们要估计老王采用的交通方式,只不过我们不知道路上花费的时间。这时有效的猜测方法就是,我们假设老王采用了某种交通方式,来统计老王花费时间的概率分布。
记为p(花费时间|交通方式)
/p(果|因)
/p(X|theta)
。