引言
在分布式鲁棒优化模型一文中,我们针对随机问题中随机变量分布不确定时,使用分布式鲁棒优化方法进行建模 instead of SAA,其中关于分布式鲁棒优化模型的模糊集我们采用的是一个Wasserstein度量下的以经验分布为中心的Wasserstein球体。接下来将介绍针对不同情况下,如何求解分布式鲁棒优化问题,即得到分布式鲁棒优化问题的可求解模型。
DR-SVM 模型
接下来介绍SVM模型。SVM模型是分类问题中最成功的方法之一。其核心就是在特征空间中寻找一个超平面(二维中就是一条线)用以最大间隔来分离数据点。而对于不可分的情况下,由Cortes and Vapnik提出了一个软间隔SVM,主要体现在对于不可分的样本,在目标函数中施加一个惩罚项(个人理解和拉格朗日罚函数方法类似,所以这个罚函数有时候也取正则项,例如各种范数)。
首先review the soft margin SVM.考虑二元监督学习分类问题,假定数据是线性不可分的(如果可分就没必要考虑软间隔SVM),给定训练集,目的是寻找一个线性分类器
,其中
是一个符号函数,从分类器表达式可以看出,主要是找到向量
和标量
(有时也称为偏置),通过如下的二次规划问题来找:
(1a)
, (1b)
(1c)
(1a)目标函数中的第一项是关于间隔最大化的表达,第二项相应于错误分类样本的惩罚项。通过将约束函数定义为一个新的函数,就可以将上述规划问题reformulate as follows :
(2a)
显然,,
.函数
可视为对于训练数据集
的误分类误差,而这种误分类误差是以hinge loss为形式,当正确分类时它等于零,且与分类器之间的距离是线性的for the mis-classified sample .The soft margin SVM ,therefore ,finds the linear classifier that minimizes the hinge losses or the training data with the
-norm regularizaiton.
令represent the pair of the random feature vector and class label with a probability distribution
and support
,Consider the following convex optimization problem:
(3)
问题(3)searches for the linear classifier with minimal generalization error of mis-classification wiht the -norm regularization.假定样本数据独立同分布于
,那么等价表达的(2)就是问题(3)的SAA version.在软间隔问题(2)中,the empirical distribution,defined by the samples,may be considered as a proxy for the true unknown distribution
and we solve the approximated classification problem.
值得说明的是针对样本数据量小时,或是无法知道真实分布,考虑分布式鲁棒SVM version ,在一般情况下,通过训练数据得到的SVM 有着较差的泛化能力,This is the motivation for considering the DR-SVM version .Therefore ,the problem of minimizing the generalization error under the worst-case probability distribution among the ambiguity set as follows :
(4)
接下来就是DR-SVM模型关于ambiguity set 的构造。首先假定支撑集是有界的,令
是
上的
-代数,
表示概率空间
中的所有概率度量的集合。Suppose a set of probability measures
is equipped with a mertric
. 考虑如下形式的ambiguity set :
. (5)
根据浅谈分布式鲁棒随机优化之Wasserstein 距离可知,(5)中的ambiguity set 也是以参考分布为中心 ,以为半径的一个球体,而且该度量函数为
,自然,参考分布应该位于
中。在这里参考分布为历史样本数据
的经验分布
,It is well-known that the empirical distribution
converges to
in various modes of convergence (Van der Vaart and Wellner,1996).对于度量函数
采用Kantorovich metric (也称为1-型Wasserstein度量),关于1-型Wasserstein度量此处就不多做叙述,前几篇文章里已说清楚。
概率度量的集合定义为:对于任意
,
(6)
Kantorovich metric between two probablility measures is defined as :
,
其中,是定义在
上的联合概率分布,
分别为联合概率分布
的两个边际分布(Villani,2009)。