分类模型—监督学习

监督学习

KNN

基本原理

寻找目标数据点附近最近的K个点，采用投票的方式判断测试数据点所属类别

算法步骤

1.计算测试数据与训练数据之间的距离
2.按照距离的递增关系进行排序
3.选取距离最小的K个点
4.确定K个点所在类别出现的频率
5.返回前K个点中出现频率最高的类别作为测试数据的预测分类

K值的选择

K过小容易发生过拟合，K过大容易发生欠；K尽量取奇数，以保证在计算结果最后会产生一个较多的类别，如果取偶数可能会产生相等的情况，不利于预测；K一般不超过20.

优缺点

优点：最简单有效的分类算法，对于类内间距小，类间间距大的数据分类效果好，而且对于边界不规则的数据效果好于线性分类器
缺点：时间复杂度高、对样本不均衡的数据或随机分布的数据效果不好

逻辑回归

简要介绍

逻辑回归假设数据服从伯努利分布，通过极大似然函数的方法，运用梯度下降求解参数，最终达到二分类的目的

基本原理

利用回归类似的方法来解决分类问题，输入特征向量，输出0～1的概率值，表示其为正例的概率；虽然用于分类但是其本质还是回归，仅仅是在特征到结果的映射中加入了一层sigmod函数，即先把特征线性求和然后使用非线性函数来预测

常规步骤
预测函数 – 损失函数 – 求解参数
损失函数

image.png

对数损失函数的训练求解参数的速度比较快

优点缺点

优点：计算代价较低；易于理解；占用内存小；训练速度快
缺点：属于线性分类器，很难处理非线性数据；容易欠拟合；分类精度不高；>本身无法筛选特征；很难处理数据不平衡的问题

应用场景

离散数据，二分类

与线性回归的区别

首先，逻辑回归和线性回归都是广义线性回归；
其次，线性回归的损失函数是平方损失函数，逻辑回归的损失函数是对数损失函数；
最后，线性回归是在整个实数域范围进行预测，分类范围是在0~ 1，总的来说逻辑回归的鲁棒性比线性回归要好。

感知机

简要介绍

通过均方损失函数(相当于点到直线的距离)的方法，使用超平面将特征空间划分为两部分，运用梯度下降求解参数，最终达到二分类的目的，即超平面上方的点为正类，反之为负类。

基本原理

感知机是二分类的线性分类模型，输入实例的特征向量，输出类别，属于判别模型。

image.png

求解步骤

1.原始形式算法(梯度下降)

image.png

2.对偶形式算法

image.png

应用场景

神经网络和支持向量机的基础，主要用于二分类算法

支持向量机

简要描述

属于一种二分类模型，运用核函数(使得低维空间中的数据映射到高维空间后变得线性可分)技巧使得不同类之间的数据间隔达到最大，可以处理线性/非线性数据

基本原理

通过某种事先选择的非线性映射将输入向量映射到一个高维特征空间，在这个空间中构造最优分类超平面，从而使得正例和负例样本之间的分离界限达到最大(解唯一、鲁棒性，泛化能力)。

损失函数

当数据线性可分时，通过硬间隔最大化，学习线性分类器；
当数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习线性分类器；
当数据不可分时，通过核技巧以及软间隔最大化，学习非线性分类器；

image.png

求解超平面的方法

硬间隔：梯度下降法(类似于最优化求解)，拉格朗日乘数法
软间隔：凸二次规划

核函数的选择

image.png

特征数量大，样本数量小，选择LR或线性核的SVM；
特征数量小，样本数量大，可认为数据线性可分
特征数量小，样本数量适中，选择SVM+高斯核函数

优点缺点

优点：
使用核函数可以向高维空间映射、解决非线性问题
分类思想简单
分类效果好
缺点：
对确实数据较为敏感，训练大规模数据时比较难
无法支撑多分类

应用场景

所有场景和数据都可以试一试

LR V.S. SVM

相同：均处理二分类问题，并且均会加入第一/第二范式
区别：
LR是参数模型，SVM是非参数模型；
LR的损失函数是对数损失，SVM的损失函数是合页损失；
LR使用非线性映射，SVM仅仅考虑了支持向量，并且可以使用核函数对数据进行处理；
SVM相当而言比LR计算复杂，准g确率比LR低
SVM基于距离分类，LR基于概率分类

拟牛顿法

牛顿法需要计算一个hessian矩阵，会比较浪费资源，而拟牛顿法就是在迭代过程中，仅仅利用相邻两个迭代点以及梯度信息，产生一个对称正定矩阵，使之逐步逼近目标函数hessian矩阵的逆矩阵(保留信息的同时也能减小计算量)。

决策树

基本原理

在已知类别的前提下，输入特征并通过一系列规则选择最优特征，以树的形式依次对数据进行分类

实现过程

特征选择 —> 数的生成 —> 树的剪枝
特征选择：信息增益，信息增益比

image.png

补充：CART(分类回归树)

有点类似于逻辑回归，输入特征，输出在特征下属于某一类别的条件概率值
回归树：平方误差最小原则
相当于是把输入的特征空间划分为M个单元，每个单元会有一个确定的值c，然后计算预测值与c之间的误差

分类树：Gini指数最小原则

用Gini指数选择最优特征

image.png

树的剪枝

预剪枝(边生成树边剪枝)
后剪枝(树生成之后再剪枝，CART算法主要使用此种剪枝方法)

优点缺点

优点：适用于数值型和离散型数据；计算复杂度不高，便于使用且高效；可处理不相关特征的数据并容易地构造出易于理解的规则
缺点：处理确实数据困难；过拟合；易忽略数据集中属性之间的相关性

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

分类模型—监督学习

监督学习

KNN

逻辑回归

感知机

支持向量机

决策树

推荐阅读更多精彩内容