人生得意须尽欢,莫使金樽空对月。
天生我材必有用,千金散尽还复来。
烹羊宰牛且为乐,会须一饮三百杯。
岑夫子,丹丘生,将进酒,杯莫停。
与君歌一曲,请君为我倾耳听。
五花马,千金裘,与尔同销万古愁。
数据集的认识:数据集划分为训练集(训练集包含:特征和(目标)标签,是用来进来构建模型的)和测试集(是用来进行验证模型的)
机器学习算法的分类:
机器学习算法的分类
KNN算法:属于监督学习--既属于分类算法也属于回归算法
K最近邻 (k-Nearest Neighbors,KNN) 算法,中文名称为K最近邻算法,是一种基本的分类和回归算法,也是最简单易懂的机器学习算法,没有之一。1968年由 Cover 和 Hart 提出,应用场景有字符识别、文本分类、图像识别等领域
KNN原理
(1)、计算测试样本和训练集中所有样本之间的相似度
(2)、按照距离递增进行排序
(3)、选择与测试样本距离最近的k个训练样本
(4)、确定前K个点所在类别出现的概率
(5)、返回前K个点出现频率最高的类别作为当前点的预测分类
KNN算法特点:①、KNN惰性学习算法,没有明显的训练过程,边测试边训练②、K值不同,结果不同(交叉验证法)③、复杂度较高。M个训练样本,N个测试样本
使用sklearn实现KNN算法,sklean是机器学习一个各种算法集合的的三方库
导包
读取数据集和测试集
数据
实例化算法对象,拟合模型,进行预测
核心
准确率
准确率
第二种查看准确率的方法
第二种查看准确率的方法