- K nearest neighbour (KNN)
- 定义:在一个数据集中,通过最近邻居将数据分类。
- Distance metrics可以是Euclidean, city block, cosine, Chebychev等。
- 无参数
- 优点:简单,合逻辑
- 缺点: 通过k来决定结果,可能k的选择不好;
通常k越大,分类过程中的噪声影响越小,但类之间的边界也变得不清晰; 算法的准确率常常会被不相干特征或者噪声影响,以至于结果很糟糕;二类分类问题中,k为奇数常常能避免票数平等;尝试不同的k来检查敏感性,很重要。