面试题目总结

阿里机器学习面试的一些题目,

1.说一下KNN的过程(刚开始的时候和k-means搞混了。。。)

KNN是k nearest neighbor 的简称,即k最邻近,就是找k个最近的实例投票决定新实例的类标。KNN是一种基于实例的学习算法,它不同于贝叶斯、决策树等算法,KNN不需要训练,当有新的实例出现时,直接在训练数据集中找k个最近的实例,把这个新的实例分配给这k个训练实例中实例数最多类。KNN也称为懒惰学习,它不需要训练过程,在类标边界比较整齐的情况下分类的准确率很高。KNN算法需要人为决定K的取值,即找几个最近的实例,k值不同,分类结果的结果也会不同。

2. ID3 C4.5 CART根据什么选择特征

ID3根据信息增益选择特征。C4.5根据信息增益率。CART根据基尼指数

参考链接:决策树(ID3、C4.5、CART)

3. 朴素贝叶斯的假设是什么?

所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。

4. 如果某个特征在训练集出现,测试集没出现没出现,概率计算出来是0,怎么解决?

某特征在训练集中未出现,避免概率计算为0,引入laplace平滑方法

5. SVM软间隔目标函数,及对偶函数的形式

当数据近似线性可分时,通过软间隔最大化学习一个线性分类器,即线性支持向量机;当数据线性不可分时,通过核技巧及软间隔最大化学习非线性支持向量机。

目标函数变为:

求min

其中C称为惩罚参数,且C>0。在线性支持向量机中加入了惩罚项。

利用拉格朗日函数的对偶性,将问题变成一个极大极小优化问题:

了解更多:SVM

6. 神经网络的误差传播的原理

BP网络拓扑结构
印象中记得老师讲。以3层的为例。紫色圈圈的误差,需要由它所有的输入负责,即每一个粉红色的圈圈都对误差负有责任,每个粉红色的圈圈的误差是两个紫色圈圈分给它的误差之和。

7.梯度提升树

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1.机器学习中特征的理解 def:特征选择和降维 特征选择:原有特征选择出子集,不改变原来的特征空间 降维:将原有...
    CoolWell阅读 4,429评论 0 0
  • 一.朴素贝叶斯 1.分类理论 朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的多分类的机器学习方法,所...
    wlj1107阅读 8,435评论 0 5
  • 昨晚19:00叶老师第八季《人人必修3堂时间管理课》第一节。 貌似叶老师的线上和线下课都上了不少了,但都没有好好的...
    NicoleQIu阅读 789评论 0 0
  • 上午来到学校马上就要开始学习训练了,有点小激动!下午的时候,我们开始选择连委进行开营仪式,我参加了授旗仪式,场面盛...
    MAZAN阅读 1,585评论 0 0

友情链接更多精彩内容