文章导读:
K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征(向量的每个元素)与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的的分类标签。由于样本集可以很大,我们选取前k个最相似数据,然后统计k个数据中出现频率最高的标签为新数据的标签。
K邻近算法的一般流程:
(1)收集数据:可以是本地数据,也可以从网页抓取。
(2)准备数据:将数据结构化,方便操作。
(3)分析数据:可以使用任何方法。
(4)训练算法:此步骤不适用于k邻近算法。
(5)测试算法:计算错误率;计算公式:错误率=测试出错次数/总测试次数
(6)使用算法:输入样本数据,输出结构化的结果,判断新数据属于哪个分类。