统计学习方法笔记:2.感知机

这是我参加mlhub123组织的书籍共读计划的读书笔记,活动见mlhub第一期读书计划

  • 阅读章节:第二章:感知机
  • 开始时间:2018-09-18
  • 结束时间:2018-09-21
  • 目标:读完第二章,掌握基本概念,产出一篇笔记
  • 博客地址

本章主要介绍了二类分类的线性分类模型:感知机:

  • 感知机模型
  • 感知机学习策略
  • 感知机学习算法

说明:个人感觉这本书偏理论化,讲究的是一招定天下,好处是内功深厚自然无敌,一通百通,但难处是语言有点晦涩,这章可以考虑结合我之前的一篇关于感知器的笔记,或许能加深理解,见这里

感知机模型

感知机(perceptron):是一个二类分类的线性判断模型,其输入为实例的特征向量,输出为实例的类别,取+1–1值,属于判别模型

注:+1 -1 分别代表正负类,有的可能用 1 0 表示

在介绍感知机定义之前,下面几个概念需要说明一下:

  • 输入空间:输入所有可能取值的集合
  • 输出空间:输出所有可能取值的集合
  • 特征空间:每个具体的输入是一个实例,由特征向量表示

所以对于一个感知机模型,可以这样表示:

  • 输入空间(特征空间):\chi \subseteq \mathbb{R} ^n
  • 输出空间:\gamma = \\{+1,-1 \\}

那么感知机就是由输入空间到输出空间的函数:

\displaystyle f( x) \ =\ sign( w\cdot x+b)

其中:

  • sign: 符号函数
  • w: 权值(weight)或权值向量(weight vector)
  • b: 偏置(bias)

感知机的几何解释如下:线性方程

w\cdot x + b =0

如果是二维空间,感知机就是一个线性函数,将正负样本一分为二,如何是三维空间,那么感知机就是一个平面将类别一切为二,上升到n维空间的话,其对应的是特征空间\mathbb{R} ^n的一个超平面S

  • w: 超平面的法向量
  • b: 超平面的截距

感知机学习策略

数据集的线性可分性

什么是数据集的线性可分性,很简单,对于一个数据集:

T = \{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}

如果存在上面一节说的超平面Sw\cdot x + b =0,能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,则称数据集T为线性可分数据集(linearly separable data set),否则,称数据集T线性不可分

感知机学习策略

找出超平面S,其实就是确定感知机模型参数:w b,根据统计学习方法三要素,此时我们需要确定一个学习策略,比如前面所说的损失函数(经验函数),并使其最小化(猜也猜得到策略讲完,后面就是说学习算法了哈哈)

上一章以线性代数为例子,用损失函数来度量预测错误的程度,这里的损失函数可以用误分类点到超平面S的总距离,输入空间\mathbb{R} ^n中任一点x_0到超平面S的距离:

\frac{1}{||w||}|w\cdot x_0+b|

其中,||w||wL_2范数,假设超平面S的误分类点集合为M,那么所有误分类点到超平面S的总距离为:

-\frac{1}{||w||}\sum_{x_i\in M} y_i(w\cdot x_i + b)

最终推导出感知机学习的损失函数:

L(w,b) =-\sum_{x_i\in M} y_i(w\cdot x_i + b)

感知机学习算法

上面一节已经确定了学习策略,按照统计学习方法三要素,目前需要一个算法来求解,目前最优化的方法是随机梯度下降法

感知机学习算法的原始形式

现在感知机学习算法就是对下面最优化问题的算法:

\min\_{w,b} L(w,b) =-\sum_{x_i\in M} y_i(w\cdot x_i + b)

现在的问题就转化成,求出参数wb,使得上列损失函数达到极小化,这里我直接贴出书中的算法,后面的例子我会用Python代码实现:

image

有了解题方法怎么能没有题目呢?李杭老师自然是考虑到了,请听题:

image

image

借用Linus Torvalds大佬的一句话:Talk less, show me your code,所以直接看代码吧:

#!/usr/bin/env python
"""
 Created by howie.hu at 2018/9/20.
"""
import numpy as np


class Perceptron:
    """
    李航老师统计学习方法第二章感知机例2.1代码实现
    """

    def __init__(self, input_nums=2):
        # 权重 已经确定只会有两个二进制输入
        self.w = np.zeros(input_nums)
        # 偏置项
        self.b = 0.0

    def fit(self, input_vectors, labels, learn_nums=10, rate=1):
        """
        训练出合适的 w 和 b
        :param input_vectors: 样本训练数据集
        :param labels: 标记值
        :param learn_nums: 学习多少次
        :param rate: 学习率
        """
        for i in range(learn_nums):
            for index, input_vector in enumerate(input_vectors):
                label = labels[index]
                delta = label * (sum(self.w * input_vector) + self.b)
                if delta <= 0:
                    self.w += label * input_vector * rate
                    self.b += rate * label
                    break
        print("最终结果:此时感知器权重为{0},偏置项为{1}".format(self.w, self.b))
        return self

    def predict(self, input_vector):
        if isinstance(input_vector, list):
            input_vector = np.array(input_vector)
        y = sum(self.w * input_vector) + self.b
        return 1 if y > 0 else -1


if __name__ == '__main__':
    input_vectors = np.array([[3, 3], [4, 3], [1, 1]])
    labels = np.array([1, 1, -1])
    p = Perceptron()
    model = p.fit(input_vectors, labels)
    print(model.predict([3, 3]))
    print(model.predict([4, 3]))
    print(model.predict([1, 1]))

输出如下:

最终结果:此时感知器权重为[ 1.  1.],偏置项为-3.0
1
1
-1

算法的收敛性

对于线性可分数据集感知机学习算法原始形式收敛,即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型,定理2.1如下:

假设训练数据集T = \{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}是线性可分的,其中x_i\in \chi =\mathbb{R} ^ny_i \in \gamma =\\{-1, 1\\}i=1,2,...,N,则有:

image

感知机学习算法的对偶形式

为什么要介绍感知机学习算法的对偶形式,主要目的就是减少运算量,这里一个知乎回答得挺好:

image
image

代码实现如下:

#!/usr/bin/env python
"""
 Created by howie.hu at 2018/9/21.
"""

import numpy as np


class Perceptron:
    """
    李航老师统计学习方法第二章感知机例2.2对偶形式代码实现
    """

    def __init__(self, alpha_length=3):
        self.alpha = np.zeros(alpha_length)
        # 权重
        self.w = np.zeros(2)
        # 偏置项
        self.b = 0.0

    def fit(self, input_vectors, labels, learn_nums=7):
        """
        训练出合适的 w 和 b
        :param input_vectors: 样本训练数据集
        :param labels: 标记值
        :param learn_nums: 学习多少次
        """
        gram = np.matmul(input_vectors, input_vectors.T)

        for i in range(learn_nums):

            for input_vector_index, input_vector in enumerate(input_vectors):
                label = labels[input_vector_index]
                delta = 0.0
                for alpha_index, a in enumerate(self.alpha):
                    delta += a * labels[alpha_index] * gram[input_vector_index][alpha_index]
                delta = label * delta + self.b
                if delta <= 0:
                    self.alpha[input_vector_index] += 1
                    self.b += label
                    break
        self.w = sum([j * input_vectors[i] * labels[i] for i, j in enumerate(self.alpha)])
        print("最终结果:此时感知器权重为{0},偏置项为{1}".format(self.w, self.b))
        return self

    def predict(self, input_vector):
        if isinstance(input_vector, list):
            input_vector = np.array(input_vector)
        y = sum(self.w * input_vector) + self.b
        return 1 if y > 0 else -1


if __name__ == '__main__':
    input_vectors = np.array([[3, 3], [4, 3], [1, 1]])
    labels = np.array([1, 1, -1])
    p = Perceptron()
    model = p.fit(input_vectors, labels)
    print(model.predict([3, 3]))
    print(model.predict([4, 3]))
    print(model.predict([1, 1]))
最终结果:此时感知器权重为[ 1.  1.],偏置项为-3.0
1
1
-1

说明

一些概念的详细解释:

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容

  • 【概述】 1、感知机模型特征:感知机对应于输入空间中将实例划分为正负两类的分离超平面,属于判别模型。 2、感知机策...
    sealaes阅读 3,107评论 2 3
  • 【概述】 SVM训练分类器的方法是寻找到超平面,使正负样本在超平面的两侧(分类正确性即“分得开”),且样本到超平面...
    sealaes阅读 11,046评论 0 7
  • 本文总结了《统计学习方法》(李航)中的一些机器学习方法,组织目录如下: 【第1章】 统计学习方法概论【第2章】 感...
    牛奶芝麻阅读 4,418评论 0 13
  • 昨天不算成功,因为用户不垂直也不够精准,群体的活跃性也比较差。 今天换了个思路,寻找了垂直用户群!直接的目标用户!...
    kp_moving阅读 229评论 0 0
  • 以下内容翻译自android wear的官方教程,本人水平有限,如有错误欢迎指出home以下正文 为了访问数据层的...
    Daz_ye阅读 493评论 0 1