Machine Learning (4)

  1. 贝叶斯公式推导,朴素贝叶斯公式
  2. 学习先验概率
  3. 学习后验概率
  4. LR 和 Linear Regression 之间的区别与联系
  5. 推导 sigmoid function 公式

一、从回归到分类

一般来说,回归模型(Regression)的输出都是连续的实值,其输出范围理论上可以是整个实数集。

f(x) = w^Tx + b

但也存在一些情况,其结果只能在一些范围内取得,比如判断一朵花属于哪一个品种,判断一张图片中的动物是 🐱还是 🐶,对于这样一些任务,就属于分类任务。跟回归模型输出值是连续的实数值不同,分类模型的任务是根据一个输入样本,输出其所属的类别。

大多数情况下,每一条输入样本都只对应一个类别。不过,对应多个类别的情况也挺常见,这里不做展开来。

分类是监督学习的一个核心问题,在监督学习中,当输出变量 Y 取有限个离散值时,预测问题便成为分类问题。

二、0-1 分类问题

0-1 分类,也被称为 「二分类」,是最基本的分类问题。由于其分类 Label 只包含有两个类别,即 y \in \left \{ 0, 1 \right \},所以我们可以假设分类结果y 服从伯努利分布。

线性分类按输出值的性质可以分为:
硬输出:感知机(+1/-1)、线性判别分析
软输出:概率判别模型(LR)、概率生成模型(Naive Bayes)

三、朴素贝叶斯分类算法

朴素贝叶斯算法是基于「贝叶斯定理」与特征「条件独立性假设」的分类方法。对于给定的训练数据集,首先基于特征条件独立性假设学习输入和输出的联合概率分布, 然后基于此模型,对于给定的输入 x ,利用贝叶斯定理求出后验概率最大的输出 y。 在学习朴素贝叶斯分类方法之前,先来熟悉一下概率论的基础知识。

3.1 条件概率

所谓条件概率,就是指在事件 B 发生的情况下,事件 A 发生的概率,表示为 p(A|B)

Let B be an event with non-zero probability. The conditional probability of any event A given B is defined as:

p(A|B) = \frac{p(A \cap B)}{p(B)}

因此,可得

p(A \cap B) = p(A|B) \cdot p(B)

同理,

p(A \cap B) = p(B|A) \cdot p(A)

注意:p(A \cap B) \iff p(AB) \iff p(A,B) 均表示一个意思,只是写法不一样而已。

3.2 全概率公式:

待补充。

3.3 贝叶斯公式

由条件概率公式,

p(A \cap B) = p(A|B) \cdot p(B) \\ p(A \cap B) = p(B|A) \cdot p(A)

可得

p(A|B) \cdot p(B) = p(B|A) \cdot p(A)

转换一下,便得到了贝叶斯公式:

p(A|B) = \frac{p(B|A)p(A)}{p(B)}

P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。

P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。

P(B|A)/P(B) 称为"可能性函数"(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率。

3.4 Naive Bayes 算法

在开始朴素贝叶斯分类算法之前,先理一下分类的思路: 给定一个包含 m 个样本的训练集数据 (x^1, y^1)...(x^m, y^m)

p(y|x) = \frac{p(x|y)p(y)}{p(x)}

朴素贝叶斯算法通过训练数据集学习联合概率分布 p(X, Y)。具体地,学习以下先验概率分布及条件概率分布。

先验概率分布:p(Y=C_k), k = 1, 2, 3,...,k

条件概率分布:p(X=x | Y=C_k) = p(X=x | Y=C_k), k = 1, 2, 3,...,k

于是学习到联合概率分布 p(X, Y) =p(X|Y)p(Y).

朴素贝叶斯算法利用贝叶斯公式与学习到的联合概率模型进行分类预测:

p(Y|X) = \frac{p(X,Y)}{p(X)} = \frac{p(X|Y)p(Y)}{p(X)}

将输入 x 分到后验概率最大的类 y.

四、Logistic Regression

Logistic Regression 属于判别式模型,该类模型直接对条件概率 p(Y|X) 建模,采用极大似然估计(MLE)来进行参数估计。

线性回归 \to 激活函数 \to 线性分类

w^Tx \to f(*) \to [0, 1]

五、关于 Logistic Regression 中的 sigmoid函数 ?

f(z) = \frac{1}{ 1 + e^{-z}}

并非所有 0~1 之间的数都可以称为概率。

广义线性模型(GLM)最大熵模型(ME)

为什么在 Logistic Regression 中可以用 sigmoid函数 ?

为什么在 Logistic Regression 中要用 sigmoid 函数 ?

指数族分布

若概率分布满足 p(y;\eta) = b(y)exp(\eta^TT(y) - a(\eta)),我们就称之为指数族分布。

很多常见的概率分布都是指数族分布的特定形式,如伯努利分布、高斯分布、多项分布、柏松分布等。

GLM 推导 Linear Regression

GLM 推导 Logistic Regression
伯努利分布的指数族形式
伯努利分布就是我们常见的 0-1 分布,即它的随机变量只取 0 或者 1。

五、 LR 和 Linear Regression 之间的区别与联系
区别:
1.Logistic Regression 主要用于分类任务,而 Linear Regression 属于回归模型

联系:
1.Logistic Regression 和 Linear Regression 都是广义线性模型(GLM)的一种特殊形式
2.Logistic Regression 和 Linear Regression 对数据对假设不一样:
Linear Regression 假设 y|x; \theta \sim N(\mu, \sigma^2) ;
Logistic Regression 假设 y|x; \theta \sim Bernoulli(\phi)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容