【机器学习零】ML方法及算法选择

一、机器学习的方法包括:

1.监督学习 supervised learning;  --最常用

特点:有数据和标签

算法:分类和回归

解释:有监督学习是指对数据的若干特征与若干标签(类型)之间的关联性进行建模的过程;只要模型被确定,就可以应用到新的未知数据上。这类学习过程可以进一步分为分类(classification)任务与回归(regression)任务。在分类任务中,标签都是离散值;而在回归任务中,标签都是连续值。

2.非监督学习 unsupervised learning;

特点:只有数据没有标签

算法:聚类

解释:无监督学习是指对不带任何标签的数据特征进行建模,通常被看成是一种“让数据自己介绍自己”的过程。这类模型包括聚类(clustering)任务和降维(dimensionality reduction)任务。聚类算法可以将数据分成不同的组别,而降维算法追求用更简洁的方式表现数据。

3.半监督学习 semi-supervised learning;

特点:少量有标签的样本,大量没有标签的样本

4.强化学习 reinforcement learning;

特点:从经验中总结提升

5.遗传算法 genetic algorithm.

特点:从经验中总结提升,适者生存


二、算法选择路径图:


三、模型特点

最近邻

     适用于小型数据集,是很好的基准模型,很容易解释。

线性模型

     非常可靠的首选算法,适用于非常大的数据集,也适用于高维数据。

朴素贝叶斯

     只适用于分类问题。比线性模型速度还快,适用于非常大的数据集和高维数据。精度通常要低于线性模型。

决策树

     速度很快,不需要数据缩放,可以可视化,很容易解释。

随机森林

     几乎总是比单棵决策树的表现要好,鲁棒性很好,非常强大。不需要数据缩放。不适用于高维稀疏数据。

梯度提升决策树

     精度通常比随机森林略高。与随机森林相比,训练速度更慢,但预测速度更快,需要的内存也更少。比随机森林需要更多的参数调节。

支持向量机

     对于特征含义相似的中等大小的数据集很强大。需要数据缩放,对参数敏感。

神经网络

     可以构建非常复杂的模型,特别是对于大型数据集而言。对数据缩放敏感,对参数选取敏感。大型网络需要很长的训练时间。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 天一转凉,班里生病的格外多。早饭时好几个孩子都吐了,脸色不好看。 回到班里,照例进行课前教育。刚吃完早饭不要跑跳运...
    窗边的小杜杜阅读 3,146评论 0 3
  • https://www.jianshu.com/p/766188dfb7d9?from=singlemessage
    向信华阅读 2,481评论 0 0
  • 三瓶茅台己喝净,不见李白把诗吟。 端怀老酒邀明月,皎皎明月伴我行。
    影曳香弄阅读 4,210评论 2 9
  • 寿王坟铜矿,一个名不见经传但却早在1959年就被写入中学地理教科书,在很多地图上必须标注的弹丸之地,我可以非常自豪...
    天马行空我也阅读 3,950评论 1 3

友情链接更多精彩内容