机器学习系列之分类

随着计算能力、存储空间、网络的高速发展,人类所积累的数据量正在快速增长,而分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多,分类算法是解决分类问题的方法,是机器学习中一个重要的研究领域。为了让大家进一步了解机器学习的分类算法,飞马网于3月29日晚,邀请到现就职于国内知名互联网公司的中山大学博士—李梦婷,向大家分享有关分类算法相关领域的内容。


以下是这次线上直播的分享实录:

一.What(带大家从根本上了解什么是分类)


1.什么是分类:

大家对分类其实并不陌生,在我们的现实生活中,经常会碰到这样的场景:


“这个人是男的还是女的?”,我们通常会在脑袋里考虑非常多的因素,比如“头发长短、身材曲线、穿衣风格......”,在大脑中,我们会结合观察到的多种因素去判断男女,这就是一个分类问题。

又或者大家比较关心的一个话题—房价,和朋友聊天时,我们会猜测“房价会涨还是会降呢?”,这其实也是一个分类问题。

上面所说的这两个例子,只有两个选项,所以这属于二分类问题。

除此之外还有非常多的分类场景,比如大家关心的年终奖,分为多种级别(S、A、B、C)。平常我们在看新闻时,每篇文章都会对应不同的类别(娱乐类、体育类、财经类)。而这两个例子有多种选项,我们把这一类问题叫做多分类问题,多分类问题又分为互斥多分类问题(年终奖:只能评一个等级)和非互斥多分类问题(文章类别:一篇文章可以同时归属于多个类别)。


2.分类的流程:

分类的一般流程是怎样的呢?我们一起来看下图:


主要包括三个部分:

第一层是最左边的x序列,代表我们观察到的一些样本信息。中间这一层是分类器,就好像我们的大脑,它会根据已有经验,把观察到的信息进行加工,得到一个特定类别,也就是我们的第三层y,代表预测的类别结果。

这里最关键的部分就是训练分类器。我们分类问题的解决,在于训练出一个好的分类器。

这一部分就是我们对分类问题的简单介绍。

二.Why(分类问题的应用场景)

从刚才的例子中,我们了解到,分类在我们的现实生活中很常见,分类是一项最有应用价值的技术之一,它的应用遍及了社会中的各个领域,下面这张图描绘的是目前比较常见的有分类问题的场景。


1.用户画像:

也就是对一个人进行类别抽象。例如,我们会根据一个人的行为去判断这个人是男是女、是老人是小孩、以及他(她)的兴趣偏好,通过各个维度的信息来刻画用户。在构造用户画像的时候,其中非常多的地方用到了分类算法,比如性别、年龄、兴趣偏好等。

2.征信评估:

在一些金融体系里,我们会根据一个人的银行卡记录或信用卡还贷记录等,去评估这个人的征信度,看这个人是属于高风险用户还是低风险用户。

3.推荐系统:

我们会预测一个人对某个东西“喜欢”或“不喜欢”,从而进行推荐。在预测时我们会根据这个人的情绪等因素,从而构造了我们现有的推荐体系。

4.趋势预测:

像房价预测、商品出货量预测、价格走势预测等等。

5.图像分类:

图像是人工智能一个非常重要的领域。比如给一张照片,我们需要一个分类器,看出照片里到底是一只猫还是一只狗。再比如我们在做新闻推荐时,会把图像进行分类,看它是不是符合政策要求。

6.文本分类:

比如文章的类别划分,有娱乐类、体育类、财经类等等。


除以上这些,还有很多其它的应用场景。


三.How(常用的分类算法,如何训练分类模型)


今天主要介绍五种常见的分类算法:K近邻、朴素贝叶斯、决策树、Logistic回归、支持向量机。



(1)K近邻:

所谓的K近邻,就是依据最邻近的一个或者几个样本的类别,来决定待分类的样本所属的类别。它是最简单的一个算法模型,我们一起来看下图:


图中有两类样本,一类是红色的三角,另一类是蓝色的方块。问题是绿色的圆点到底属于哪一类?根据K近邻的方法,我们先看离绿色圆点最近的样本,有两个红色三角样本和一个蓝色方块样本,根据K近邻思想,我们可以推出绿色圆点样本可以归为红色三角这一类。

其实在自然语言处理中,有一个非常典型的例子可以说明K近邻。比如自然语言处理中最底层对word进行向量化处理时,也就是常说的“what embedding”,我们会把一个词映射到一个高维的语义空间中,在这个语义空间里,不同词之间的距离能够表示它们语义之间的相关性。在进行词的分类时,我们可以根据它周围最近几个词的分类,来确定当前我们想评估的这个词的分类。

·优点:思想简单,理论成熟;可用于非线性分类;准确度高,对数据没有假设;对outlier不敏感。

·缺点:计算量大;样本不平衡问题;内存消耗大;k值的选择对分类效果有很大影响。


(2)朴素贝叶斯:

这是一个属于概率统计的模型。下图中给出的基本公式,是存在于条件概率的一个形式,它有非常强的一个假定,“给定目标值时属性之间相互条件独立”,只有在假设成立时,我们才能得到这个公式。这个公式计算出来,是一个概率。


·优点:在数据较少的情况下仍然有效;可以处理多类别问题;适合增量式训练。

·缺点:对于输入数据的表达方式较为敏感;需要知道先验概率,分类决策存在错误率;属性之间的独立性假设往往不成立(可先聚类)。


(3)决策树:

决策树是一个在工业界应用比较多的算法模型,我们通过下面的示例图来了解一下。


上图可以分为两个部分:左侧和右侧。

左侧实际上就是样本的属性(性别、年龄、职业...),右侧是所构建的决策树模型,根据所监测到的信息以及所对应的类别所构造的决策树。

我们构建决策树要进行一个什么样的分类呢?从图中可以知道,我们根据已有的样本构建一个分类器,判断一个人“是不是喜欢电脑游戏?”

首先根据样本属性对空间进行一个划分,在这里,我们选择的是“年龄小于15”这个条件,满足就走左侧子树,不满足就走右侧子树。左侧子树又根据“是男生吗?”进一步划分为两个子树。小男孩变成最后一层的叶子节点的正样本,小女孩是这层的叶子节点的负样本。根据这种方式,我们就可以构造出一棵决策树。


·优点:计算复杂度不高,且重用性高;输出结果易于理解;对中间值不敏感;可以处理不相关特征数据;能很好地处理连续特征。

·缺点:容易出现过拟合问题;对噪声数据较为敏感。


(4)Logistic回归:

它是当前业界用的最广的模型,无论谷歌、百度,还是腾讯、阿里,都有用到。它的原型是一个线性模型。


预测样本值是由W和X组成的,最左侧这个公式,X就是我们观测到的值,WT是我们权重的向量空间。根据这样一个计算,我们就可以得到一个数值,是一个实数范围内的值,从负无穷大到正无穷大,这样一个值对我们的分类来说比较痛苦。

考虑到这个问题,有一个数学性质非常好的函数,也就是上图左下方的转化后的函数。我们可以把实数范围内的输入转化成0-1范围内的一个输出,在这样一个稳定的输出范围内,我们就能比较好地进行阈值的设定。

上图右边这个公式是用来训练的损失函数。我们根据已有的样本值,可以得到一个分类器,这个分类器可能并不是那么准确,我们将样本里面部分的属性输进去后,它会预测出一个值,我们拿这个值和训练样本里面真正对应的分类值进行比较,计算它们之间的差距,这个差距就是一个损失,我们通常采用的就是上图这种形式。根据这个损失函数,我们可以得到当前分类器是否能够反映真实的情况,根据这个差距,我们会采用一些优化方法,比如梯度下降等,去优化我们的W值。

我们这个模型从根本上说就是W的权重值,根据这个损失函数,计算出W的最优值,就构造出来了一个分类器。它从核心上来说是W和X的一个加权求和的形式,所以说它是一个线性的分类器。

·优点:计算代价不高,速度快,存储低;易于理解和实现。

·缺点:容易欠拟合;分类精度可能不高;必须线性可分。


(5)支持向量机:

这个模型是有久远历史的模型,现在应用的并不是特别多,所以就简单介绍一下。


上图展示了支持向量机的基本原理,它通常是找到一条线或一个面,使得不同类到这个面的距离是最大的,我们需要做的就是找到这条线或这个面。

·优点:泛化错误率低;计算开销不大;可用于非线性分类;结果易解释。

·缺点:对参数调节和核函数选择敏感;原始分类器不加修改仅适用于处理二类问题。


以上五个就是常用的分类算法。

下图是一个分类算法整合,方便大家在不同的场景下选择合适的分类算法:



四.数据+算力+算法=AI

百度的李彦宏有提到过“数据+算力+算法=AI”,得到了业界的广泛认同,刚才我们介绍了算法,那数据和算力怎么看呢?


算法也就是我们刚才说到的一些算法模型、分类模型等等。算力实际上就是我们能够支撑算法跑的一些性能支撑、平台支撑、硬件支撑等等。数据是我们着重要说的,它排在第一位,最基础,是决定一个问题解决能否成功的关键,数据的处理往往对最后的效果影响最大。

上图是一些性价比比较高的数据处理方式,有样本清洗、特征变换、特征选择、特征组合。


这四大部分就是关于分类算法的介绍。下面我们一起来看看在最后的答疑过程中,都有些什么问题呢?


1.大数据分析和AI的关系?

李老师:其实它们之间并没有那么明显的界定,主要是侧重点的区别。大数据分析侧重试分析,也会用到AI的技术,或者常说的算法模型。而AI不仅仅是分析,它有更多的领域。


2.如何判断一个特征是否有效?

李老师:比如在构造样本的时候,先进行一些卡方检验,相关系数检验等。在选择不同的样本构造分类器之后,也可以评价它的一些auc的一个变化。不过需要注意的是,如果通过样本量的大小带来的auc的变化,通常是不可信的。所以需要在同样的样本量的情况下,而且是模型收敛的情况下,去评价不同。特征的auc可以进行特征的选择,看特征是否有效。


3.AI、数据分析、人工智能在工作中。对于hadoop、spark之类的大数据技术,要求高吗?需要掌握到什么程度?

李老师:hadoop、spark是我们常用的进行机器学习的平台。可以了解,不用那么深,但基本的使用和大致的原理以及性能的调优都还是需要知道的。


以上就是本次线上直播的主要内容,相信你对分类算法的概念、应用场景、模型都有了更深入的认识。想了解更多更详细内容的小伙伴们,可以关注服务号:FMI飞马网,点击菜单栏飞马直播,即可进行学习。




©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容