python之k-近邻算法(sklearn版)

上文借用了numpy和pandas等模块自编了k-近邻算法python之k-近邻算法(非sklearn版),这次借用sklearn轮子来实现一下
数据还是用上篇文章的数据来https://pan.baidu.com/s/1zIGz6GtEU20UeT6hemP4MQ

一,处理类别数据

上篇文章我们是利用KNN.py中的自编函数panduan在读取数据的过程中来实现的,而这种转变在sklearn中已经有轮子调用了
这里再补充一点:对于类别数据(对于特征值也是适用的),可以分为标称特征(nominal feature)有序特征(ordinal feature).
对于我们这里的数据largeDoses,smallDoses,didntLike应该是对应着有序特征

#接下来将喜欢的类别中的三类转变为1,2,3
like_order = {"didntLike":1,"smallDoses":2,"largeDoses":3}
df['喜欢的类别'] = df['喜欢的类别'].map(like_order)
df['喜欢的类别'].drop_duplicates()

得到结果:
df['喜欢的类别'].drop_duplicates()
Out[8]: 
0    largeDoses
1    smallDoses
2     didntLike
Name: 喜欢的类别, dtype: object
如果后续转变回来,可以定义一个逆映射字典
inv_like_order = {v:k for k,v in like_order.items()}
df['喜欢的类别'] = df['喜欢的类别'].map(inv_like_order)
df['喜欢的类别'].drop_duplicates()

得到结果:
Out[12]: 
0    largeDoses
1    smallDoses
2     didntLike
Name: 喜欢的类别, dtype: object

如果在这里'喜欢的类别'本身不带有有序的含义的话,即largeDoses,smallDoses,didntLike三个类别没有序别之分,可以借用sklearn里的功能

#自己写
import numpy as np
like_not_order = {label:idx for idx,label in enumerate(np.unique(df['喜欢的类别']))}
df['喜欢的类别'] = df['喜欢的类别'].map(like_not_order)
df['喜欢的类别'].drop_duplicates()

Out[17]: 
0    1
1    2
2    0
Name: 喜欢的类别, dtype: int64

#sklearn 
from sklearn.preprocessing import LabelEncoder
class_le = LabelEncoder()
y = class_le.fit_transform(df['喜欢的类别'].values)
np.unique(y)
Out[22]: array([0, 1, 2], dtype=int64)

##转变回原来的类别
class_le.inverse_transform(y)

可以看到借用sklearn是比较方便的

但是。。。。。但是。。。。以上的0,1,2在算法看来依然是有顺序的,所以我们可以利用独热编码(one-hot encoding),即创建一个新的虚拟特征(dummy feature)

from sklearn.preprocessing import OneHotEncoder
#categorical_features参数指定我们对数据集中第几列进行独热编码
ohe = OneHotEncoder(categorical_features=[3]) 
ohe.fit_transform(df).toarray()

也可以利用pandas里的功能

pd.get_dummies(df) #只对类别性数据有用,会忽略数值型数据

————————————————————————————————————

二、将特征值缩放到相同区间

特征缩放(feature scaling)对于除了决策树和随机森林两个算法没用以外,对其他算法和优化算法来讲都是必不可少的

2.1 归一化(将值缩放到0-1之间)

即上篇文章所涉及到的


image.png
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
y = mms.fit_transform(df.iloc[:,0:3])

2.2 标准化(将值缩放到均值为0,方差为1,即标准正态分布)

对于线性模型来讲,标准化更加好,一是符合线性模型对权重的处理,二是保留了异常值的信息


image.png
from sklearn.preprocessing import StandardScaler
stds = StandardScaler()
y = stds.fit_transform(df.iloc[:,0:3])

———————————————————————————————————

三、将数据集划分为训练集和测试集

上篇文章对于此类问题的处理见datingClassTest函数

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(df.iloc[:,0:3],df.iloc[:,3], \
                                                 test_size=0.1,random_state=0)
image.png

四、k-近邻算法

K-近邻算法被称之为惰性算法,和其他机器学习算法不一样,因为他仅仅是对训练数据集有记忆功能,而不是从训练集中通过学习得到一个判别函数,即不需要训练,看过上篇文章的小伙伴应该会有体会。缺点是计算复杂度会随着样本数量的增长而呈线性增长,除非数据集中特征数量有限

image.png

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import MinMaxScaler
like_order = {"didntLike":1,"smallDoses":2,"largeDoses":3}
df['喜欢的类别'] = df['喜欢的类别'].map(like_order)
X_train,X_test,y_train,y_test = train_test_split(df.iloc[:,0:3],df.iloc[:,3], \
                                                 test_size=0.1,random_state=0)
#n_neighbors代表近邻数,p=2代表欧式距离,p=1代表曼哈顿距离
#metric='minkowski'代表闵可夫斯基距离,他是对欧氏距离和曼哈顿距离的一种泛化
knn = KNeighborsClassifier(n_neighbors=5,p=2,metric='minkowski')
mms = MinMaxScaler()
X_train_std =  mms.fit_transform(X_train)
knn.fit(X_train_std,y_train)
knn.predict(mms.fit_transform(X_test))

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容