The semi-infinite programming formulation of the DR-SVM

引言
       在分布式鲁棒优化模型一文中,我们针对随机问题中随机变量分布不确定时,使用分布式鲁棒优化方法进行建模 instead of SAA,其中关于分布式鲁棒优化模型的模糊集我们采用的是一个Wasserstein度量下的以经验分布为中心的Wasserstein球体。接下来将介绍针对不同情况下,如何求解分布式鲁棒优化问题,即得到分布式鲁棒优化问题的可求解模型。


DR-SVM 模型

      接下来介绍SVM模型。SVM模型是分类问题中最成功的方法之一。其核心就是在特征空间中寻找一个超平面(二维中就是一条线)用以最大间隔来分离数据点。而对于不可分的情况下,由Cortes and Vapnik提出了一个软间隔SVM,主要体现在对于不可分的样本,在目标函数中施加一个惩罚项(个人理解和拉格朗日罚函数方法类似,所以这个罚函数有时候也取正则项,例如各种范数)。

      首先review the soft margin SVM.考虑二元监督学习分类问题,假定数据是线性不可分的(如果可分就没必要考虑软间隔SVM),给定训练集\{x_{j},y_{j} \}_{j=1,\dots ,m}\subset R^{n} \times \{-1,1  \},目的是寻找一个线性分类器f(x;w,b) = sgn(w^{T}x+b),其中sgn(A^{T}x+B)是一个符号函数,从分类器表达式可以看出,主要是找到向量w和标量b(有时也称为偏置),通过如下的二次规划问题来找:

                                                  min_{w,b,s} \frac{1}{2}w^{T}w+C\sum_{j=1}^{m} s_{j}                                        (1a)

                                                  s.t. \ s_{j}\geq  1-y_{j}(w^{T}x_{j} +b), \quad j=1,\dots ,m,       (1b)

                                                  \qquad s\geq 0                                                                       (1c)

(1a)目标函数中的第一项是关于间隔最大化的表达,第二项相应于错误分类样本的惩罚项。通过将约束函数定义为一个新的函数,就可以将上述规划问题reformulate as follows :
                                               min_{w,b} \frac{1}{2}w^{T}w +\hat{C} \sum_{j=1}^{m} h(w,b;x_{j},y_{j}) \frac{1}{m}                 (2a)

         显然,h(w,b;x_{j},y_{j}) := max \{ 1-y(w^{T}x+b),0   \},\hat{C} :=Cm.函数h(w,b;x_{j},y_{j})可视为对于训练数据集(x_{j},y_{j})的误分类误差,而这种误分类误差是以hinge loss为形式,当正确分类时它等于零,且与分类器之间的距离是线性的for the mis-classified sample .The soft margin SVM ,therefore ,finds the linear classifier that minimizes the hinge losses or the training data with the L_{2}-norm regularizaiton.

      令\xi :=(x,y)represent the pair of the random feature vector and class label with a probability distribution P and support \Xi :=\chi  \times \{-1,1  \} \subset  R^{n} \times \{-1,1   \},Consider the following convex optimization problem:

                                                     min_{w,b} \frac{1}{2} w^{T}w +\hat{C}\int_{\Xi} h(w,b;\xi)P(d\xi)                (3)

问题(3)searches for the linear classifier with minimal generalization error of mis-classification wiht the L_{2}-norm regularization.假定样本数据独立同分布于P,那么等价表达的(2)就是问题(3)的SAA version.在软间隔问题(2)中,the empirical distribution,defined by the samples,may be considered as a proxy for the true unknown  distribution P and we solve the approximated classification problem.

值得说明的是针对样本数据量小时,或是无法知道真实分布P,考虑分布式鲁棒SVM version ,在一般情况下,通过训练数据得到的SVM 有着较差的泛化能力,This is the motivation for considering the DR-SVM  version .Therefore ,the problem of minimizing the generalization  error under the worst-case probability distribution among the ambiguity set as follows :

                                               min_{w,b} \frac{1}{2} w^{T}w + \hat{C}sup_{P \in D} \int_{\Xi} h(w,b;\xi)Pd(\xi)      (4)

       接下来就是DR-SVM模型关于ambiguity set 的构造。首先假定支撑集\Xi \subset  R^{n} \times \{-1, 1 \}是有界的,令F\Xi上的\sigma -代数,M(\Xi)表示概率空间(\Xi,F)中的所有概率度量的集合。Suppose  a set of probability measures M \subset M(\Xi) is equipped with a mertric \rho . 考虑如下形式的ambiguity set :
                                                         D =\{ P \in M | \ \rho (P,\hat{P})\leq  \varepsilon  \}.                           (5)

      根据浅谈分布式鲁棒随机优化之Wasserstein 距离可知,(5)中的ambiguity set 也是以参考分布为中心 ,以\varepsilon 为半径的一个球体,而且该度量函数为\rho (Q_{1},Q_{2}),自然,参考分布应该位于M中。在这里参考分布为历史样本数据\{ \xi_{j}  \}_{j=1,\dots ,m}的经验分布P_{n},It is well-known that the empirical distribution P_{m} converges to P in various modes of convergence (Van der Vaart and Wellner,1996).对于度量函数\rho (Q_{1},Q_{2})采用Kantorovich metric (也称为1-型Wasserstein度量),关于1-型Wasserstein度量此处就不多做叙述,前几篇文章里已说清楚。

概率度量的集合M定义为:对于任意\xi^{0} \in \Xi,

                      M:= \{ P \in M(\Xi) \ | \int_{\Xi} d_{\xi}(\xi^{0},\xi) P (d\xi) < +\infty    \}                             (6)

Kantorovich metric between two probablility measures P^{1}, P^{2} \in M is defined as :

\rho (P^{1},P^{2}) := inf_{K} \{ \int_{\Xi \times \Xi} d_{\xi} (\xi^{1},\xi^{2})K(d\xi^{1},d\xi^{2} ) \ |

              \int_{\Xi}K(\xi^{1},d\xi^{2}) = P^{1}(\xi^{1}),\int_{\Xi} K(d\xi^{1},\xi^{2}) = P^{2}(\xi^{2}), \forall \xi^{1},\xi^{2} \in \Xi   \},

其中,K是定义在\Xi \times \Xi 上的联合概率分布,P^{1},P^{2}分别为联合概率分布K的两个边际分布(Villani,2009)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,635评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,543评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,083评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,640评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,640评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,262评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,833评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,736评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,280评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,369评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,503评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,185评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,870评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,340评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,460评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,909评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,512评论 2 359

推荐阅读更多精彩内容

  • 1 SVM原理 SVM是一种二分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。(间隔最...
    阡陌哥哥阅读 14,210评论 0 15
  • 支持向量机既可用于回归也可用于分类。 SVM 原理 SVM 是一种二类分类模型。它的基本模型是在特征空间中寻找间隔...
    dingtom阅读 524评论 0 0
  • 学习内容 SVM 硬间隔原理 SVM 软间隔 SMO 求解SVM 代码设计 1、硬间隔 本文是需要一定基础才可以看...
    酱油啊_阅读 156评论 0 0
  • 以下只是将知识点QA化,不要为了面试硬背答案,还是先得好好看书 Q-List: 简要介绍一下SVM 支持向量机包含...
    青箬笠绿蓑衣_简阅读 524评论 0 2
  • 1 为什么要对特征做归一化 特征归一化是将所有特征都统一到一个大致相同的数值区间内,通常为[0,1]。常用的特征归...
    顾子豪阅读 1,363评论 0 1