从0-1认识K-最近邻算法(KNN)

人生得意须尽欢,莫使金樽空对月。

天生我材必有用,千金散尽还复来。

烹羊宰牛且为乐,会须一饮三百杯。

岑夫子,丹丘生,将进酒,杯莫停。

与君歌一曲,请君为我倾耳听。

五花马,千金裘,与尔同销万古愁。


数据集的认识:数据集划分为训练集(训练集包含:特征和(目标)标签,是用来进来构建模型的)和测试集(是用来进行验证模型的)

机器学习算法的分类:

机器学习算法的分类

KNN算法:属于监督学习--既属于分类算法也属于回归算法

K最近邻 (k-Nearest Neighbors,KNN) 算法,中文名称为K最近邻算法,是一种基本的分类和回归算法,也是最简单易懂的机器学习算法,没有之一。1968年由 Cover 和 Hart 提出,应用场景有字符识别、文本分类、图像识别等领域

KNN原理

(1)、计算测试样本和训练集中所有样本之间的相似度

(2)、按照距离递增进行排序

(3)、选择与测试样本距离最近的k个训练样本

(4)、确定前K个点所在类别出现的概率

(5)、返回前K个点出现频率最高的类别作为当前点的预测分类

KNN算法特点:①、KNN惰性学习算法,没有明显的训练过程,边测试边训练②、K值不同,结果不同(交叉验证法)③、复杂度较高。M个训练样本,N个测试样本

使用sklearn实现KNN算法,sklean是机器学习一个各种算法集合的的三方库

导包

读取数据集和测试集

数据

实例化算法对象,拟合模型,进行预测

核心

准确率

准确率

第二种查看准确率的方法

第二种查看准确率的方法
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容