Classification（分类）

应用举例
- Credit Scoring
  - input: income, saving, profession, age, past financial history...
  - output: accept or refuse
- Medical Diagosis
  - input: current symptons, age, gender, past medical history...
  - output: which kind of disease
- Handwritting recognition
- Face recognition

1.数学前提

情景：盒1（4蓝球，1绿球），盒2（2篮球，3绿球），拿盒1的概率是2/3，拿盒2的概率是1/3

先验概率：知因求果
从盒1中拿，拿出篮球的概率是多少
$P(Blue|Box1)=\frac{4}{5}$
后验概率：知果求因（此时用到了贝叶斯公式）
已知拿到了篮球，则从盒1中拿的概率是多少
$P(Box1|Blue)=\frac{P(Blue|Box1)P(Box1)}{P(Blue|Box1)P(Box1)+P(Blue|Box2)P(Box2)}$
贝叶斯公式：
$P(C_i|x)=\frac{P(x|C_i)P(C_i)}{\sum\limits_{j=1}^n{P(x|C_j)P(C_j)}}$
事件 $C_i$ 的概率为 $P(C_i)$ ，事件 $C_i$ 已发生条件下事件 $x$ 的概率为 $P(x|C_i)$ ，事件 $x$ 发生条件下事件Ci的概率为 $P(C_i│x)$
generative model（生成模型）
那上诉的这些数值从哪里来呢，就从training data里面，估计出来，这个想法就是生成模型。
例如， $P(Blue)=P(Blue|Box1)P(Box1)+P(Blue|Box2)P(Box2)$
极大似然估计：知果求最可能的原因
Naive Bayes（朴素贝叶斯）：假设属性之间都是互相独立的，则称这个贝叶斯是朴素的贝叶斯，用此假定，是为了简化计算。
$P(x|C_1)=\prod\limits_{n=1}^KP(x_n|C_1)$
则朴素贝叶斯公式为：
$P(C_i|x)=\frac{P(C_i)\prod\limits_{n=1}^KP(x_n|C_1)}{\sum\limits_{j=1}^n[{P(C_j)\prod\limits_{n=1}^KP(x_n|C_1)]}}$

2 分类步骤

2.1 首先明确现在做的这一步

目的：确认x这个点是否是在类别A里面
方法：所有的类别都有自己的分布，计算x这个点在类别里分布的概率，当概率大于0.5时，就可认为x属于这个类别
问题：这个（高斯）分布怎么计算呢？
解决：极大似然估计

2.2 Guassian Distribution（高斯分布）

$f_{\mu,\Sigma}(x)= \frac{1}{(2\pi)^{\frac{D}{2}}} \times \frac{1}{|\Sigma|^{\frac{1}{2}}}\exp \{ -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) 1\}$
其中 mean $\mu$ ：均值；covariance matrix $\Sigma$ ：协方差矩阵

这个公式中，若已知均值和协方差矩阵，将目标点带入，就可求得此点在该高斯分布中的位置。
接下来就需要用极大似然估计，来找出该高斯分布，最有可能是由那个均值和哪个协方差矩阵组成的。

哪个参数才是最好的呢

2.3 极大似然估计

$Likelihood(\mu,\Sigma)=f_{\mu,\Sigma}(x_1)f_{\mu,\Sigma}(x_2)...f_{\mu,\Sigma}(x_n)$
这个是均值和协方差矩阵的可能性
若要使得可能性最大，即 $\mu^*,\Sigma^*=\arg maxL(\mu,\Sigma)$ 均值和协方差矩阵需满足如下公式
$\mu^*=\frac{1}{79}\sum\limits_{n=1}^{79}x^n$
$\mu$ 为平均值
$\Sigma^*=\frac{1}{79}\sum\limits_{n=1}^{79}(x^n-\mu^*)(x^n-\mu^*)^T$
此时我们已经得到了 $\mu^*,\Sigma^*$ ，由此可得此高斯分布，现在我们回到贝叶斯公式

2.4 用贝叶斯公式进行分类

2.4.1 第一次尝试

将得到的高斯分布放进贝叶斯公式中

然而由此得出的效果正确率只有47%，即使把七维的参数都放进来，准确率也只有54%，此时需要调整模型

2.4.2 第二次尝试

调整模型
根据以往经验得出，其实协方差矩阵用同一个即可，即 $\Sigma = \frac{79}{140}\Sigma^1+\frac{61}{140}\Sigma^2$ ，均值还是各自的照旧，用同一个协方差矩阵会产生一个线性的边界。
此时，准确率达到了73%
Sigmoid function
$\sigma(z)=\frac{1}{1+e^{-z}}$

Sigmoid

Sigmoid funciton 有很多优良的特性，值域为(0,1)，在0.5周围敏感，在0,1附近不敏感，非常适合用于二分任务

2.5 Linear Regression 和 Logistic Regression 的区别和联系

在贝叶斯公式中， $P(C_1|x)$ 可以写成 $\sigma(z)$ 的形式，而 $z$ 经过一番运算以后，可以得到一个 $w·x+b$ 的形式，即最终 $\sigma(w·x+b)$
从中，我们能看出 Linear Regression 在经过了 Sigmoid function 处理之后，变成了能够处理了二分任务的 Logistic Regression