手写KNN实践

手写代码是算法最好的实现机制:

from sklearn import datasets
from collections import Counter  # 为了做投票
from sklearn.model_selection import train_test_split
import numpy as np

# 导入iris数据
iris = datasets.load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=2003)

def euc_dis(instance1, instance2):
    """
    计算两个样本instance1和instance2之间的欧式距离
    instance1: 第一个样本, array型
    instance2: 第二个样本, array型
    """
    # 注意运算符的优先级
    dist = np.sqrt(sum((instance1 - instance2) ** 2))
    return dist


def knn_classify(X, y, testInstance, k):
    """
    给定一个测试数据testInstance, 通过KNN算法来预测它的标签。
    X: 训练数据的特征
    y: 训练数据的标签
    testInstance: 测试数据,这里假定一个测试数据 array型
    k: 选择多少个neighbors?
    """
    # TODO  返回testInstance的预测标签 = {0,1,2}
    y_distances=[euc_dis(x,testInstance) for x in X]
    kn = np.argsort(y_distances)[:k]
    count = Counter(y[kn])
    return count.most_common()[0][0]

# 预测结果。
predictions = [knn_classify(X_train, y_train, data, 3) for data in X_test]
correct = np.count_nonzero((predictions==y_test)==True)
print ("Accuracy is: %.3f" %(correct/len(X_test)))
不同K下的校验结果:
k = 3; Accuracy is:0.921
k = 5; Accuracy is:0.895
k = 7; Accuracy is:0.921
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 所有知识点已整理成app app下载地址 J2EE 部分: 1.Switch能否用string做参数? 在 Jav...
    侯蛋蛋_阅读 7,387评论 1 4
  • 人的一生不过短短几十年,就犹如登上了一列高速行驶的列车,途中会遇到美丽的绿洲,也会遇到荒芜的戈壁。很难说绿洲美还是...
    数豆者m阅读 2,662评论 2 9
  • 在职场中,很多行业都是起伏变化的。 他们可能从最开始的朝阳行业变成了夕阳行业,这样等我们在选择工作的时候,不仅要看...
    这个馒头有馅阅读 4,633评论 1 22

友情链接更多精彩内容