概览
p9:逻辑回归
疑问
笔记
B站19年李宏毅 P9
1.Function Set :方程集合
-
由上面那个贝叶斯化简出来 从总体sample 出
2.Step 2: Goodness of a Function
-
找出w,b让L最大
-
cross entropy 代表的是这两个分布有多接近,如果两个 distribution 一模一样的话,这个cross entropy 就是零
3.逻辑回归与线性回归对比
- 逻辑回归我们要最小化的对象是 所有 example 的 cross entropy 的总和,也就是说假设把 f(x) 当作一个伯努利 distribution ,把 yn hat 当作另外一个伯努利 distribution,C(f(x),y)下面那个公式之和是我们要最小化的东西。
-
直观上来讲,我们希望 function 的 output 和 target ,如果把他们都看作是伯努利 distribution 的话,这两个伯努利 distribution 越接近越好。
4.Find the best function
-
根据梯度下降法来算,先计算对 w 的偏微分,剩下的一样处理
- wi的偏微分见下面,梯度下降的每一次参数更新也在下面
-
**式子代表的意义:现在参数的 update 取决于三件事:
一、是learning rate 这个是自己调整的
二、xi 这个来自与data
三、第三项就是偏微分,具体式子看下面。这个微分的代表的意思是这个function的output跟他理想的目标的差距有多大。yn hat是目标,fw,b(x)是现在model的output,这两个相减的差代表这两个的差距有多大,如果现在离目标越远那么每次update的量就应该越大 **
5.对比线性回归以及逻辑回归的update的式子
- 式子形式一样,唯一不一样的是。logistic 的output一定是介于零和1之间的数字,target也只有0,1;
-
linear 的output可以是任何值,target 也可以是任何值。
6.为什么不用Logistic Regression + Square Error
7.对比逻辑回归与贝叶斯的w,b(判别式与生成式)
- logistic 和 前面贝叶斯的用的是同一个 function set 只不过用的是不同的假设,所以根据同一组 training data 找出来的参数会是不一样的。
-
在 logistic regression 里面对数据的 distribution 没有做任何的假设,在 generative model (生成的,看起来是贝叶斯) 里面对 distribution 是有假设的,比如假设是高斯分布,伯努利之类的。根据假设可以找出另外一组 w,b
-
同样用7个 feature ,Discriminative model 要比 Generative model 表现要好。
-
举例说明 Generative 的表现为什么不太好
- 最后算出来这个两个都是1 的data是属于 class2的
- 因为 native 是没有考虑 feature1和 feature之间的关系的。现在在 class2 里我们没有发现这种两个都是1的data,他会认为我们是 sample的不够多。
-
generative model和 Discriminative model之间的区别就是:generative 做了某些假设:假设你的data来自于某个几率模型,脑补。
- 如果今天training data的数量很少,那么 Generative model 可能会好一些。data慢慢增加的时候,Discriminative 会变得越来越好;
- 如果data 是有问题的,那么 Generative model 可能会好一些。
-
最后一句没有看懂 Priors and class-dependent probabilities can be estimated from different sources. 可以问一下。
8.分多个类别 :Multi-class Classification