K近邻算法:就是说给定一个训练数据集,对新的输入实例,在训练集中找到与这个实例最邻近的K个,这K个实例的多数属于某个类,就把这个新输入的分类到哪个类中。(少数服从多数?)
K值的选取:
太小:整体模型复杂,容易发生过度拟合(很容易学习到噪音)
太大:整体模型简单,这时与新输入实例无关的训练实例也会起作用
如何选取:一般选取一个较小的数值,然后采取交叉验证法选取最优
#就是说,关键要实验调参
定义距离:最常见的就是欧式距离
特征归一化:
因为各个特征变化的区间范围不同,可能不同种类实例的特征x变化区间是0-100;特征y变化的区间是0-1,如果不做归一化,会产生一种结果:x起主要作用,而y不起作用了