[機器學習]VC維(未完)

機器學習類型


預測已知資料

如下圖已知資料中,我們使用PLA可以預測6個已知資料。

預測未知資料

  • 學習架構

X、Y為群體參數,f為一個函數(就是我們想由機器學習得到的那個真實的x),輸入X得到Y 。
D(資料)為由群體取出的樣本參數加上雜訊,g為一個函數,輸入x得到y 。
H為推測可能為f函數的集合。

  • 前言
    假設若還有一個未知資料(藍圈),我們並不能保證能夠完全預測,此時若要預測未知資料,我們需要作些假設。

  • Hoeffding’s Inequality
    假設有一個罐子,裡面有橘球跟綠球,抽到橘球可能性為\mu,抽到綠球可能性為1-\mu,從罐子中抽N個,橘球的比例為\nu,綠球比例為1-\nu\epsilon\nu 跟\mu的差距(誤差)。
    Hoeffding’s:
    P[|\nu - \mu| > \epsilon] \le 2e^{-2 \epsilon^{2}N}
    在N非常大時,\nu \approx \mu 。

  • 套用到學習架構
    我們假設罐子裡有很多球,每個球為一個樣本(x),若將x(球)輸入給h,得到h(x)預測結果,若將x(球)輸入給f,得到f(x)真實結果。
    如果h(x) \neq f(x)將球漆成橘色,如果h(x) = f(x)將球漆成綠色,我們取n個球出來作為資料D=\{(x_n,y_n)\}y_n又等於f(x_n),第一筆資料就是(x_1,f(x_1) ) 。
    我們能否從h(x_n)是否等於y_n推論出h(x)是否等於f(x)?

  • 得到(橘球可能性\mu以及橘球比例\nu)
    我們假設x樣本的機率分怖是由一個機率P產生的。
    E_{in}:h(x)在樣本的錯誤率
    E_{out}:h(x)在實際群體的錯誤率

    所有樣本機率總和除以樣本數(平均)

  • 帶入Hoeffding

  1. 由Hoeffding 我們可以知道,我們只需要知道N\epsilon,就可以知道\mu(E_{out})\nu(E_{in})大於誤差的機率,不需要知道E_{out}以及fP 。
  2. 例如:
    E_{in}:h(x)在樣本的錯誤率=0.01=1%,E_{out}:h(x)在實際群體的錯誤率=0.02=2%
    \epsilon = 0.01,N = 20000,\mu(E_{out})\nu(E_{in})大於誤差的機率 = 0.0366 = 3.6%
  3. \epsilon誤差越大,發生的機率越小,所以\mu(E_{out})會接近於\nu(E_{in}),此時如果\nu(E_{in})很小,h \approx f 。
  • 選擇h
  1. 目前我們只有選擇一個固定的h,我們還無法找出g(最佳的h),我們每個選擇的h都代表一個罐子,而我們抽出N個樣本,當h很多時,我們看見樣本中有一個全為綠色(h(x)=y_n)的球,那麼它是最佳的h嗎?
    其實並不一定,因為當h越大,表示我們從很多罐子中抽取同樣的那幾顆x的球,有可能在某個h中剛好這些x都是綠色,而並非罐子全為綠色。
  • 壞的資料
    假設我們有Mh要選擇,我們有很多筆資料,如果同一資料中對應的h有其中一個是BAD我們就說這是一個不好的資料。
    由下圖推導我們可以知道,M越大會導致h \neq f的機率上升,如果我們N夠大,在有限個M中,我們可以說E_{in}小的時候,h \approx f 。
    我們使(E_{out}) \approx (E_{in})就像在驗證(validation)數據(test),而使(E_{in} \approx 0就像在訓練(train)數據。

  • M的大小
    M如果很小,我們說h \approx f機率大,但h小我們可以選的h太少,可能可以選的h裏頭並沒有一個h是接近f的,但h大我們抽中壞資料的機率又會增加,所以我們必須選擇一個大小剛好的M 。

  • 代換M
    對於一個假設空間中,M可能是無窮大的。要能夠繼續推導下去,那麼有一個直觀的思路,能否找到一個有限的因子m_H來替代不等式約束中的M,雖然假設空間(hypotheses set)很大,多個h之間並不是完全獨立的,他們是有很大的重疊的,也就是在中號個假設中,可能有一些假設可以歸為同一類 。

  • h分類

  1. 如果我們的算法要在平面上(二維空間)挑選一條直線方程作為g,用來劃分一個點x_1,假設空間H是所有的直線,它的尺寸M是無限多的。
    2.dichotomies是指x被分為二元類別。
  2. 但是實際上可以將這些直線分為兩類,一類是把x_1判斷為+,另一類是把x_1判斷為-,(dichotomies = 2)。
    那如果在平面上有兩個數據點x_1x_2,可以分為4類(dichotomies = 4)。
    3個數據點,H中最多有8類直線(dichotomies = 8)。
    4個數據點,H中最多有14類直線(dichotomies = 14),有2種情況無法線性分類。
    前面3種狀況dichotomies都等於數據x的排列組合數(2^N),只有N \ge 4時,dichotomies(m_H(N)) < 2^N才發生 。
  • effective(N)
    effective(N)為H作用於資料中,最多能產生多少個dichotomies,這個又稱為“成長函數”(growth function)= m_H(N),例如:在2D perceptrons中, m_H(1)=2m_H(2)=4m_H(3)=8m_H(4)=14 。

  • 不同情況的Growth Function

  • Break Point(k)
    Break Point 就是 m_H(N)開始小於"數據x的排列組合數"時的N值。
    例如:在2D perceptrons中,N \ge 4時,m_H(N) < 2^N才發生,(14 < 16),所以Break Point = 4。
    例如:在positive rays中,N \ge 2時,m_H(N) < 2^N才發生,(3 < 4),所以Break Point = 2。

  • Shatter

  1. m_H(N)還沒到達Break Point(k)時,我們稱"這Nxh給Shatter,如果說Break Point = 2就表示,任兩點x_1,x_2不能被Shatter 。
  • Bounding Function
    若給我們N以及k,我們如何求得Bounding Function,在Nx中,給幾個dichotomies之後,才能使其中任意kx都不能被dichotomies給shatter 。

例:求(N=3,K=2)的Bounding Function

  1. 首先我們給一個任意dichotomies(OOO,XXX),也可以是(OXO,XXX)、(OOX,XOX).....,N個x的二元排列組合,但不能重複。
  2. 檢查我們取任2個(k個)x能不能由dichotomies產生(OO,OX,XO,XX)全部的排列組合
  3. 不行再加入新任意的dichotomies(不跟之前重複),重新檢查取任2個(k個)x能不能由dichotomies產生(OO,OX,XO,XX)全部的排列組合
  4. 直到加入某個任意的dichotomies(不跟之前重複),不管如何改變dichotomies(OXO、XOX...)(不跟之前重複),取任2個x都不能由dichotomies產生(oo,ox,xo,xx)全部的排列組合,此時的上一個dichotomies數目就是Bounding Function
  • (N=3,K=2)的Bounding Function = 4

參考:

  1. 林軒田老師機器學習基石課程(想詳讀的可以找coursera)
  2. 參考李宏毅老師ML課程
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,874评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,102评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,676评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,911评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,937评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,935评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,860评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,660评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,113评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,363评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,506评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,238评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,861评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,486评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,674评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,513评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,426评论 2 352

推荐阅读更多精彩内容