引言
一个弱分类器,采样一次的正确率如果是p,那么我们连续采样n次,最后的正确率为可以用二项式定理描述:
![Binomial equation][equtation]
[equtation]:http://latex.codecogs.com/svg.latex?P_{total}=\sum_{i=0}{n}C_nipi(1-p){n-i}
我们试着计算一下,如果一个效果很差的弱分类器(p=0.55),我们一次性搞500次分类,那么正确的概率是多少。
我们发现,当采样次数到了170次以上时,分类器的效果就已经到达了90%以上,可以认为是一个堪用的分类器了。
这就像是出差时躺在旅馆里摇微信,每次摇中心仪目标的概率都很小,但是如果我们坚持要下去,大数定理会给我们希望的答案。
我们可以将这种方法视作一种简单的提升(boosting)方法,这种方法广泛应用在机器学习的实践过程中。
损失函数
回顾之前学过的内容,我们可以这样理解损失函数:
给定输入向量x和输出变量y组成的若干训练样本(x_1,y_1),(x_2,y_2)...(x_n,y_n),目标是找到近似函数hat F(x),使损失函数L(y,F(x))的损失值最小:
损失函数L(y,F(x))的典型定义为:
![][equtation3]
[equtation3]:http://latex.codecogs.com/svg.latex?L(y,F(\vec{x}))=\frac{1}{2}(y-F(\vec{x}))^2
或
![][equtation4]
[equtation4]:http://latex.codecogs.com/svg.latex?L(y,F(\vec{x}))=\left|y-F(\vec{x})\right|
是否想起了线性回归中的L1正则项和L2正则项?
附:数学小知识
![此时的mu是中位数][equtation1]
[equtation1]: http://latex.codecogs.com/svg.latex?\mu*=arg,min\sum_{i=1}n\left|{x_i-\mu}\right|
![此时的mu是均值][equtation2]
[equtation2]: http://latex.codecogs.com/svg.latex?\mu*=arg,min,\frac{1}{2}\sum_{i=1}n(x_i-\mu)^2
第一个方程的解实际上是mu的中位数,第二个方程的解是均值,都非常容易证明。