【机器学习基础】

1、常用分类算法的优缺点?


图1


图2


图3


2、评价指标

1)正确率(accuracy) 正确率是我们最常见的评价指标,accuracy= (TP+TN)/(P+N),正确率是被分对的样本 数在所有样本数中的占比,通常来说,正确率越高,分类器越好。

2)错误率(errorrate) 错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一 个实例来说,分对与分错是互斥事件,所以 accuracy=1- errorrate。

3)灵敏度(sensitive) sensitive=TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力。

4)特效度(specificity) specificity=TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力。

5)精度(precision) 精度是精确性的度量,表示被分为正例的示例中实际为正例的比例, precision=TP/(TP+FP)。

6)召回率(recall) 召回率是覆盖面的度量,度量有多个正例被分为正例, recall=TP/(TP+FN)=TP/P=sensitive, 可以看到召回率与灵敏度是一样的。

7)其他评价指标

计算速度:分类器训练和预测需要的时间;

鲁棒性:处理缺失值和异常值的能力;

可扩展性:处理大数据集的能力;

可解释性:分类器的预测标准的可理解性,像决策树产生的规则就是很容易理解的,而神 经网络的一堆参数就不好理解,我们只好把它看成一个黑盒子。

8)查准率和查全率反映了分类器分类性能的两个方面。如果综合考虑查准率与查全率, 可以得到新的评价指标 F1 测试值,也称为综合分类率:

9)ROC 曲线和 PR 曲线

References [1] 李航. 统计学习方法[M]. 北京:清华大学出版社,2012.

3、理解局部最优和全局最优

优化问题一般分为局部最优和全局最优。

1)局部最优,就是在函数值空间的一个有限区域内寻找最小值;而全局最优,是在函数值空间整个区域寻找最小值问题。

2)函数局部最小点是那种它的函数值小于或等于附近点的点。但是有可能大于较远距离的点。

3)全局最小点是那种它的函数值小于或等于所有的可行点。

4、常见代价函数


5、为什么用交叉熵代替二次代价函数

6、常见的损失函数



7、逻辑回归为什么使用对数损失函数


8、对数损失函数是如何度量损失的



9、各种梯度下降法性能比较



10、 LDA 和 PCA 区别


LDA 优缺点

11、PCA 算法主要优缺点



12、模型评估

模型评估常用方法?

13、图解欠拟合、过拟合



14、 如何解决过拟合与欠拟合

15、查准率与查全率


16、常见的类别不平衡问题解决方法

   防止类别不平衡对学习造成的影响,在构建分类模型之前,需要对分类不平衡性问题进行处理。主要解决方法有:

1、扩大数据集

     增加包含小类样本数据的数据,更多的数据能得到更多的分布信息。

2、对大类数据欠采样

       减少大类数据样本个数,使与小样本个数接近。 缺点:欠采样操作时若随机丢弃大类样本,可能会丢失重要信息。 代表算法:EasyEnsemble。利用集成学习机制,将大类划分为若干个集合供不同的学习器使用。相当于对每个学习器都进行了欠采样,但在全局来看却不会丢失重要信息。

3、对小类数据过采样

          过采样:对小类的数据样本进行采样来增加小类的数据样本个数。 代表算法:SMOTE 和 ADASYN。 SMOTE:通过对训练集中的小类数据进行插值来产生额外的小类样本数据。 新的少数类样本产生的策略:对每个少数类样本 a,在 a 的最近邻中随机选一个样本 b, 然后在 a、b 之间的连线上随机选一点作为新合成的少数类样本。 ADASYN:根据学习难度的不同,对不同的少数类别的样本使用加权分布,对于难以学习的少数类的样本,产生更多的综合数据。 通过减少类不平衡引入的偏差和将分类决策边界自适应地转移到困难的样本两种手段,改善了数据分布。

4、使用新评价指标

       如果当前评价指标不适用,则应寻找其他具有说服力的评价指标。比如准确度这个评价指标在类别不均衡的分类任务中并不适用,甚至进行误导。因此在类别不均衡分类任务中,需要使用更有说服力的评价指标来对分类器进行评价。

5、选择新算法

       不同的算法适用于不同的任务与数据,应该使用不同的算法进行比较。

6、数据代价加权

       例如当分类任务是识别小类,那么可以对分类器的小类样本数据增加权值,降低大类样本的权值,从而使得分类器将重点集中在小类样本身上。

7、转化问题思考角度

      例如在分类问题时,把小类的样本作为异常点,将问题转化为异常点检测或变化趋势检测问题。 异常点检测即是对那些罕见事件进行识别。变化趋势检测区别于异常点检测在于其通过检测不寻常的变化趋势来识别。

8、将问题细化分析

     对问题进行分析与挖掘,将问题划分成多个更小的问题,看这些小问题是否更容易解决。

17、决策树

(1)决策树的基本原理

       决策树是一种分而治之(DivideandConquer)的决策过程。一个困难的预测问题, 通过树的分支节点, 被划分成两个或多个较为简单的子集,从结构上划分为不同的子问题。将依规则分割数据集的过程不断递归下去(RecursivePartitioning)。随着树的深度不断增加,分支节点的子 集越来越小,所需要提的问题数也逐渐简化。当分支节点的深度或者问题的简单程度满足一定 的停止规则(Stopping Rule)时, 该分支节点会停止劈分,此为自上而下的停止阈值(Cutoff Threshold)法;有些决策树也使用自下而上的剪枝(Pruning)法。

(2)决策树的三要素

       一棵决策树的生成过程主要分为以下 3 个部分:

特征选择:从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择 特征有着很多不同量化评估标准,从而衍生出不同的决策树算法。

决策树生成:根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止生长。树结构来说,递归结构是最容易理解的方式。

剪枝:决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。

(3)决策树算法优缺点

      决策树算法的优点:

1、理解和解释起来简单,决策树模型易想象。

2、相比于其他算法需要大量数据集而已,决策树算法要求的数据集不大。

3、决策树算法的时间复杂度较小,为用于训练决策树的数据点的对数。

4、相比于其他算法智能分析一种类型变量,决策树算法可处理数字和数据的类别。

5、能够处理多输出的问题。

6、对缺失值不敏感。

7、可以处理不相关特征数据。

8、效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策 树的深度。

决策树算法的缺点:

1、对连续性的字段比较难预测。

2、容易出现过拟合。

3、当类别太多时,错误可能就会增加的比较快。

4、信息缺失时处理起来比较困难,忽略了数据集中属性之间的相关性。

5、在处理特征关联性比较强的数据时表现得不是太好。

6、对于各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。




18、支持向量机




SVM 主要特点及缺点



19、聚类和降维有什么区别与联系



20、GBDT 和随机森林的区别


21、k-means 聚类算法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,366评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,521评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,689评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,925评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,942评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,727评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,447评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,349评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,820评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,990评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,127评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,812评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,471评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,017评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,142评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,388评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,066评论 2 355

推荐阅读更多精彩内容