K最近邻算法

K近邻算法:就是说给定一个训练数据集,对新的输入实例,在训练集中找到与这个实例最邻近的K个,这K个实例的多数属于某个类,就把这个新输入的分类到哪个类中。(少数服从多数?)


K值的选取:

太小:整体模型复杂,容易发生过度拟合(很容易学习到噪音)

太大:整体模型简单,这时与新输入实例无关的训练实例也会起作用

如何选取:一般选取一个较小的数值,然后采取交叉验证法选取最优

#就是说,关键要实验调参


定义距离:最常见的就是欧式距离


特征归一化:

因为各个特征变化的区间范围不同,可能不同种类实例的特征x变化区间是0-100;特征y变化的区间是0-1,如果不做归一化,会产生一种结果:x起主要作用,而y不起作用了

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容