K-近邻算法

简述:将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(前K个)的分类标签,选择前K个中出现次数最多的分类,作为新数据的分类。

用于回归:将K个样本的实值平均,还可基于距离远近进行加权平均或加权投票

优点:精度高、异常值不敏感、无数据输入假定

缺点:计算复杂度高、空间复杂度高

适用数据范围:数值型和标称型

归一化数值为了提高准确度

因为K-近邻算法的计算复杂度实在太高,K决策树是K近邻算法的优化版

KNN虽然简单,但它的泛化错误率不超过贝叶斯最优分类器的错误率的两倍

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容