各种机器学习算法的应用场景及优缺点

应用场景及优缺点:

https://www.zhihu.com/question/26726794

https://blog.csdn.net/haipengdai/article/details/51981890

https://www.cnblogs.com/nolonely/p/6678256.html

机器学习分类情况、优缺点:https://my.oschina.net/sunmin/blog/789809

一、k-means

1. 输入数据

k-means是要计算距离的,所以只能应用于连续型数据,并且在聚类前要手动选择分成几类(可以事先画图看适合分成几类)。

参考:https://blog.csdn.net/sinat_36710456/article/details/88019323

2. 初选中心、距离计算、求新的中心点、直到中心趋于稳定

最常用欧式距离。为防止某些属性数据值大影响距离的计算,可以归一化处理。

参考:https://blog.csdn.net/github_39261590/article/details/76910689

https://www.jianshu.com/p/5dbb677ff35c

3. 应用场景

解决聚类问题。

4. 优缺点

优点:

① 算法简单、快速

② 对处理大数据集,该算法是相对可伸缩的和高效率

③ 时间复杂度接近于线性,而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是O(n×k×t) ,其中n代表数据集中对象的数量,t代表着算法迭代的次数,k代表着簇的数目。

④ 当簇是密集、球状或团状的,簇与簇之间区别明显时,它的聚类效果很好。

不适合非凸面形状的簇,或者大小差别很大的簇。

缺点:

① 它只有在簇的平均值被定义的情况下才能使用,涉及有分类属性的数据就不适用

② 必须给出要生成的簇的数目k,而这个k值有时不知道确定为几。

对初值敏感。需要不断调整参数。因此当数据量非常大时,算法时间开销是很大的

对“噪声”和“孤立点”敏感。少量的该类数据能够对平均值产生极大影响。

⑤ 可能收敛到局部最优,最终解的质量很大程度上取决于初始化的分组。

⑥ 算法假设:均方误差是计算群组分散度的最佳参数

改进:

一是数据预处理:归一化处理。

二是初始聚类中心选择:k-means++思想,初始的聚类中心之间的相互距离要尽可能远。(步骤:先随机选第一个类中心,根据较远距离选择第二中心,重复直到k个中心都选出来)

三是对于孤立点的改进——基于距离法。

找出孤立点并移除:首先扫描一次数据集, 计算每一个数据对象与其临近对象的距离, 累加求其距离和, 并计算出距离和均值。如果某个数据对象的距离和大于距离和均值, 则视该点为孤立点。

二、决策树

应用场景:分类或回归问题

优点:容易可视化;算法完全不受数据缩放的影响,决策树算法不需要特征预处理,比如归一化或标准化;特别特征的尺度完全不一样时或者二元特征和连续特征同时存在时,决策树的效果很好。

缺点:容易过拟合,泛化能力差(预剪枝)。往往使用集成方法(随机森林)

1. C4.5

1.1 输入数据要求

离散型和连续性属性

1.2 计算熵、计算信息增益、计算分裂信息度量、计算信息增益率、根据信息增益率进行选择属性集中的属性作为树节点

熵:值越大,不确定性越大。熵计算公式:H(X)=- ∑ pi * logpi,i=1,2, ... , n

信息增益(经验熵):g(D,A)=H(D)−H(D|A)      实际上就是特征A和D的互信息

分裂信息度量和信息增益率:

避免ID3不足的一个度量就是不用信息增益来选择Feature,而是用信息增益比率(gainratio),增益比率通过引入一个被称作分裂信息(Splitinformation)的项来惩罚取值较多的Feature,分裂信息用来衡量Feature分裂数据的广度和均匀性。

但是当某个Di的大小跟D的大小接近的时候,

SplitInformation(D,A)→0,GainRatio(D,A)→∞,

为了避免这样的属性,可以采用启发式的思路,只对那些信息增益比较高的属性才应用信息增益比率

1.3 优缺点

优点:

① 克服了ID3算法中以信息增益为分裂依据的不足

② 除了离散型属性,还能处理连续型属性

③ 构造决策树之后进行剪枝操作,提高泛化能力;能够处理有缺失属性值的训练数据;分类规则易于理解,准确率较高(决策树共有优点

缺点:

① 构造树过程中,多次顺序扫描和排序,导致计算效率较低,特别是含有连续型属性样本时

② 算法在选择分裂属性时,没有考虑到条件属性间的相关性,只计算数据集中每一个条件属性与决策属性之间的期望信息,有可能影响到属性选择的正确性。

2. CART(二叉树)

2.1 输入数据

离散值、连续值

2.2 计算基尼系数/均方差之和、进行分裂、直到停止

分裂标准:

分类树:基尼系数(最小)——损失度量

回归树:每一类的均方差、均方差之和(最小)——损失度量

2.3 剪枝

CCP(代价复杂度)剪枝:选择增益值最小的非叶子节点,删除其左右子节点;若有多个非叶子节点增益值相同小,则选择子节点数最多的删除。

2.4 缺点

① 无论ID3,C4.5,CART都是选择一个最优的特征做分类决策,但大多数,分类决策不是由某一个特征决定,而是一组特征。这样得到的决策树更加准确,这种决策树叫多变量决策树(multi-variate decision tree)。在选择最优特征的时,多变量决策树不是选择某一个最优特征,而是选择一个最优的特征线性组合做决策。

② 样本一点点改动,树结构剧烈改变。可以用随机森林方法改进。

3. 随机森林

随机森林是通过集成学习的bagging思想将多颗树集成的一种算法,它的基本单元是决策树。

参考:https://blog.csdn.net/qq_34106574/article/details/82016442

三、KNN

1. 非参、惰性

2. 优缺点

优点:

① 简单易用,相比其他算法,KNN算是比较简洁明了的算法。即使没有很高的数学基础也能搞清楚它的原理。

② 模型训练时间快。

③ 预测效果好。

④ 对异常值不敏感

缺点:

① 对内存要求较高,因为该算法存储了所有训练数据

② 预测阶段可能很慢

③ 对不相关的功能和数据规模敏感

当需要使用分类算法,且数据比较大的时候就可以尝试使用KNN算法进行分类了。

四、逻辑回归

1. 数据要求

线性回归模型:因变量是连续变量

逻辑回归:因变量是定性变量,是分类问题

2. 由于线性回归拟合结果容易受异常值的影响,逻辑回归将线性回归的判别函数转换,将得到的结果放在[0,1]区间里,表示为出现正例的概率。而具体的判定阈值需要视具体情况而定。

3. 逻辑回归对样本类别数目差距很大时,预测效果不好。这时我们需要对数据进行欠采样/重采样

五、AdaBoost

1. Adaboost算法是经过调整的Boosting算法,其能够对弱学习得到的弱分类器的错误进行适应性调整。每一次迭代,都要对权重进行更新。更新的规则是:减小弱分类器分类效果较好的数据的概率,增大弱分类器分类效果较差的数据的概率。最终的分类器是个弱分类器的加权平均。

2. 优缺点

优点:

     (1)Adaboost提供一种框架,在框架内可以使用各种方法构建子分类器。可以使用简单的弱分类器,不用对特征进行筛选。

     (2)Adaboost算法不需要弱分类器的先验知识,最后得到的强分类器的分类精度依赖于所有弱分类器。无论是应用于人造数据还是真实数据,Adaboost都能显著的提高学习精度。

     (3)Adaboost算法不需要预先知道弱分类器的错误率上限,且最后得到的强分类器的分类精度依赖于所有弱分类器的分类精度,可以深挖分类器的能力。Adaboost可以根据弱分类器的反馈,自适应地调整假定的错误率,执行的效率高。

     (4)Adaboost对同一个训练样本集训练不同的弱分类器,按照一定的方法把这些弱分类器集合起来,构造一个分类能力很强的强分类器,即“三个臭皮匠赛过一个诸葛亮”。

缺点:

     在Adaboost训练过程中,Adaboost会使得难于分类样本的权值呈指数增长,训练将会过于偏向这类困难的样本,导致Adaboost算法易受噪声干扰。此外,Adaboost依赖于弱分类器,而弱分类器的训练时间往往很长。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352