2020-06-25 监督学习小节

今天过端午节节,上午做饭,中午孩子不睡,脾气暴躁,没看多少东西。潦草应付一下。

最近邻

适用于小型数据集,是很好的基准模型,很容易解释

线性模型

非常可靠的首选算法,适用于非常大的数据集,也适用于高维数据。

朴素贝叶斯

只适用于分类问题。比线性模型速度还快,适用于非常大的数据集和高维数据。精度通常要低于线性模型。

决策树

速度很快,不需要数据缩放,可以可视化,很容易解释。

随机森林

几乎总是比单棵决策树的表现要好,鲁棒性很好,非常强大。不需要数据缩放。不适用于高维稀疏数据。

梯度提升决策树

精度通常比随机森林略高。与随机森林相比,训练速度更慢,但预测速度更快,需要的内存也更少。比随机森林需要更多的参数调节。

支持向量机

对于特征含义相似的中等大小的数据集很强大。需要数据缩放,对参数敏感。

神经网络

可以构建非常复杂的模型,特别是对于大型数据集而言。对数据缩放敏感,对参数选取敏感。大型网络需要很长的训练时间。

面对新数据集,通常最好先从简单模型开始,比如线性模型、朴素贝叶斯或最近邻分类器,看能得到什么样的结果。对数据有了进一步了解之后,你可以考虑用于构建更复杂模型的算法,比如随机森林、梯度提升决策树、 SVM 或神经网络。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。