关于核函数的一些思考

想写一下我自己对于核函数的理解,虽然并不知道核函数的发明过程,但我想以自己的理解,来重现这个过程。

核函数的应用很广,在SVM上的应用只是冰山一角。即便如此,我还是假设发明人是在解决SVM问题的过程了发明的核函数。

对于一个二分类问题,有一个理想的数据集,假设它是线性可分的,这时直接应用SVM算法即可进行分类。

假设现在的数据集不是线性可分的,如图1所示:

图1

该数据集在二维空间中,每个数据点都可用一个二维向量(x1,x2)'''来表示(3个单引号'''表示转置)。我们可以用一个椭圆形状的超平面在该2维空间中对数据集进行分类,我们写出椭圆的一般方程:

图2

如果我们令:

图3

其中:

图4

你会发现,2维向量x被映射成另一个5维向量z后,分类超平面是一个线性超平面,数据点变得线性可分!也即是下面的变换:

图5

也就是说,数据集在二维空间中线性不可分,若想实现线性可分,须把该数据集映射到一个5维空间中!考虑SVM的的原始优化问题:

图6

(式中的点号代表内积运算)式(5)中的xi对应数据集中的样本点,现在在二维空间中。我们要实现该数据集线性可分,需要把每个点都映射到5维空间中去。也就变成了下式:

图7

根据式(6)可以推知,对于一个线性不可分的数据集,我们只要把xi替换成相应的映射后的点就可以了。所以,原来二维空间中的分类决策函数:

图8

也就变成了5维空间中的分类决策函数:

图9

好了,因为x的映射函数已知,所以我们就能轻松根据上式得到决策超平面了。

看似问题到这里就结束了,但是,考虑到本例中只是实现二维空间中数据的线性可分,就把数据映射到了5维空间。想像如果数据本身的维度就很高,那映射后的空间维度会更高,甚至是无限维!我们该怎么求这个映射函数呢?即便知道了这个映射函数,也没法算啊,因为它是无限维的。所以,我们应该找一个合适的二元函数,它的输入是原空间的两个向量,它的输出是映射到高维空间的两个向量的内积!给这个合适的二元函数起个霸气的名字,就叫做核函数

为什么这样定义?对照(8)式中的两个映射函数的内积来思考一下:我们要求出(8)式两个映射函数的内积,所以要构造一个二元函数,它的输入就是原二维空间中的x和xi两个向量,它的输出就是映射到5维空间的两个向量的内积。

这样,我们就避免了求映射函数,只通过一个核函数就可以在低维空间完成高维空间中才能完成的事!

(至此,有些童鞋会想,既然映射后的向量的内积不好求,你咋知道你构造的核函数的值就是映射后的向量的内积?!一会儿会说这个问题。)

先考虑一个简单的例子:

现在有两个二维空间中的数据点x=(x1,x2)'''和y=(y1,y2)''',考虑下面这个二元函数:

图10

把x,y代表(9)式,解之得:

图11

你会发现,最后的函数值竟然等于两个向量p和q的内积,而且两个向量分别是二维空间数据点x和y在三维空间中的映射!想到刚才定义的核函数,我们很容易想到,f(x,y)就是一个核函数。它给出了一个二维的表达式,使得x,y代入即可求值,而不再需要先把x,y映射成3维空间中的向量p,q,再求内积。

这也正是我们定义核函数的目的,即虽然没有显式地给出原空间中向量的映射函数,但却达到了可以在原空间中计算映射后的向量内积的目的!

回到我们刚才讨论的问题,对于(8)式,假设我不知道这个5维的映射是啥,但我要求映射后向量的内积,所以我要构造一个核函数K(x,xi)来代替映射后向量的内积,即可得到下面的决策分类面:

图11

那么问题来了:

  • 应该怎样构造这个核函数呢?

有几个经典的核函数可供选用,如:多项式核函数,高斯核函数等。当然你也可以自己构造核函数,但也不是任意一个函数就可以当做核函数的,需要满足Mercer条件(有兴趣的童鞋可以自己研究一下)。

  • 你咋知道你构造的这个核函数就一定能使数据在高维空间中线性可分呢?

我没专门研究过,我也不知道自己构造的核函数一定能把数据点在高维空间中线性地分开。但是你可以选择上面提到的常用的核函数,选择合适的参数,就能使得原空间中的数据点在高维空间中变得线性可分。至于为什么,我是这样理解的:

常用的核函数把原空间的数据映射到了高维空间中,使得数据变得“更容易”线性可分,考虑下图所示的例子:

图12

二维空间中的点只能用非线性的超平面才能分开,但把数据映射到高维空间中,就可以用一个线性的平面给分开了。虽然更高维的画面无法脑补,但是可以参考我们在文章开始举的椭圆方程的例子。即空间的维度越高,数据越容易线性可分。

总结一下:

在SVM的应用中,如果数据点在原空间中不是线性可分的,理想的做法是找到一个映射函数把数据映射到高维空间中,然后再进行分类。但是,映射后的目标空间往往是很高维甚至是无限维的,我们需要找到一个函数来代替求高维空间中向量内积的运算,我们命名它为核函数。一般的做法都是选择常用的核函数来使用,当然,你也可以自己构造核函数,前提是要满足Mercer条件。

核函数不只应用在SVM中,只要有类似需求的地方都可以考虑使用核技巧。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容