机器学习笔记:分类(classification)

-前言:

分类是机器学习非常重要的模块,也是很基础的一块。正是因为基础也很重要,反而不知道如何去概括和全面理清,后续会继续来填补这个坑,之后如果有需到相关的东西,也会尽量分析。这里只是记录了一些很基础的内容。欢迎指出不足,一起学习。

一、分类问题

常见的分类问题有二分类,多分类问题。同时多分类问题有分为互斥多分类问题,非互斥多分类问题。

如“房子涨还是跌?”这就是二分类问题;绩效评定(S、A、B、C),新闻分类(娱乐类、体育类、财经类)这些都是多分类问题,其中绩效评定因为只能选择一个等级,所以我们称为互斥类多分类问题。新闻分类中一篇新闻可以有多个分类,所以我们称为非互斥类多分类问题,分类问题关系如图2-1所示


图1-1 分类问题关系

分类问题的不同,我们选取的算法也就不同,所以我们先明确问题的所属。

二、分类流程

分类过程,如图2-1所示

图2-1 分类过程
2.1 提取特征与特征选取

特征提取和特征选择是DimensionalityReduction(降维)的两种方法,针对于the curse of dimensionality(维灾难),都可以达到降维的目的。但是这两个有所不同。如图2-2

图 2-2 特征提取与特征选择

a) 特征提取(Feature Extraction):特征抽取后的新特征是原来特征的一个映射。

b) 特征选择(Feature Selection):特征选择后的特征是原来特征的一个子集。

c) 特征提取是站在一个更高的角度去看问题,从中找到问题的本质,用更通俗的方式来表达这个问题和理论,这个就是特征提取要做的事情。

d) 如果只是想对现有的问题的观点和描述“取其精华,去其糟粕”,这个是所谓特征选择。只是对现有进行筛选。

e) 特征提取和特征选择统称为降维。

2.2 模型训练过程
2.2.1 划分数据

模型训练之前通常将数据分为三部分,训练集(training set)、测试集(test set)、验证集(validation set)
training set用来训练模型, validation set用来统计单一评估指标,调节参数, 选择算法。 test set 则用来在最后整体评估模型的性能。

2.2.2 数据划分

(1)留出法

  • 把数据集分成互不相交的两部分,一部分是训练集,一部分是测试集。

  • 保持数据分布大致一致,类似分层抽样

  • 训练集数据的数量应占2/3到4/5

  • 为了保证随机性,将数据集多次随机划分为训练集和测试集,然后在对多次划分结果取平均。

(2)交叉验证法

  • 将数据集随机分为互斥的k个子集,为保证随机性,P次随机划分取平均。

  • 将k个子集随机分为k-1个一组剩下一个为另一组,有k种分法。

  • 将每一种分组结果中,k-1个子集的组当做训练集,另外一个当做测试集,这样就产生了k次预测,对其取平均

  • 称为p次k折交叉验证,一般取k=10

(3)自助法

  • 适用于样本量较小,难以划分时。换句话说,样本量足够时,用自助法并不如留出法和交叉验证法,因其无法满足数据分布一致。

  • 每次随机从数据集(有m个样本)抽取一个样本,然后再放回(也就是说可能被重复抽出),m次后得到有m个样本的数据集,将其作为训练集

  • 始终不被抽取到的样本的比例:

  • 也就是说这保证了训练集样本数(不重复)在2/3左右

注意:

将数据集划分训练集和测试集是为了选定一个相对好的模型,当模型选定以后,训练数据仍是整个数据集。

实际应用中,一般只将数据集分成两类,即训练集Training set 和测试集Test set

2.2.3 模型训练

训练集很好理解是用来训练模型,验证集的作用是为了当作评估算法的单一的评估指标,训练后的模型使用验证集,通过评估(AUC)得到训练效果。我们通过training set 与validation set 结果对比,来调节算法参数。比如训练集AUC结果远大于验证集AUC,那么发生了过拟合的问题,我们可能需要减少训练迭代次数或通过设置L2正则这种方式来解决。如果训练集与验证集得到AUC都很低,我们可能需要增加迭代次数或者调节算法参数来解决。

当测试集训练后,验证集评估得到不错的效果后,测试集将进一步验证效果,

虽然验证集与测试集都是用来评估,但是两者的区别是:1、training set和validation set一边训练模型一边验证,相比测试集节省了大量时间; 2、validation set评估是单一的评估指标,而test set评估会更多,有ROC,召回,精准,F1 Scroe等,可以帮助我们从多个维度去评估模型。模型训练过程如图2-3所示


2-3 模型训练过程
小结:

我们用training set做训练, validation set来初步评估结果,这么做的优点是validation set跟随training set一起被输入到模型算法中,但又不参与模型训练,只是用来快速评估AUC的。在调参阶段我们会不停的改变参数值来调整模型,而validation set就能帮助我们快速的查看结果。test set的作用并不是快速查看结果的,它提供一个模型的完整评估报告,但操作相较单一的validation set而言,更多更费时。所以我们一般在validation set上把参数调整的差不多后,才会使用到test set。

2.3 分类算法

常见的几种分类算法:K近邻、朴素贝叶斯、决策树、Logistic回归、支持向量机,介绍如图2-4所示


图2-4 常见的分类算法

结语:

后面我会更详细的来介绍这些算法的特点,都是自己平时遇到记录的内容,难免会出错,欢迎一起学习讨论机器学习算法。如果发现这一章还有哪些问题,或没有讲清楚的,欢迎留言。我会继续跟进填坑。感谢^ ^!

如果您喜欢我的文章,请关注或点击喜欢,您的支持是我最大的动力 ^ ^~!
欢迎指出问题,一起讨论,共同进步
转载请注明作者及其出处

黑羊的皇冠 简书主页

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350