本节讲述数据表达方法:(1)使用哑变量转化类型特征(2)对数据进行装箱处理
使用哑变量转化类型特征
哑变量:用来把某些类型变量转化为二值变量的方法。
下面使用get_dummies来将类型特征转化为只有0和1的二值数值特征。默认情况下是不会对数值特征进行转换的。
fruits = pd.DataFrame({'数值特征':[5,6,7,8,9],
'类型特征':['西瓜','香蕉','桔子','苹果','葡萄']})
fruits_dum = pd.get_dummies(fruits)
display(fruits_dum)
使用get_dummies对数值特征进行转换
fruits['数值特征'] = fruits['数值特征'].astype(str)
pd.get_dummies(fruits, columns=['数值特征'])
首先用.astype(str)指定了“数值特征”这一列是字符串类型的数据,然后在get_dummies中指定columns参数为“数值特征”这一列,这样get_dummies就会只转化数值特征了。
对数据进行装箱处理
利用one-hot编码来表达已经装箱的数据
one-hot编码优点:将离散型特征使用one-hot编码,确实会让特征之间的距离计算更加合理。
下面分别用MLP算法和KNN算法对数据集进行回归分析
Python代码实现:
new_line = onehot.transform(np.digitize(line,bins=bins))
new_mlpr = MLPRegressor().fit(X_in_bin, y)
new_knr = KNeighborsRegressor().fit(X_in_bin,y)
plt.plot(line, new_mlpr.predict(new_line),label='New MLP')
plt.plot(line, new_knr.predict(new_line),label='New KNN')
plt.plot(X,y,'o',c='r')
plt.legend(loc='best')
plt.show()
结果分析:MLP的回归模型变得更复杂,KNN模型变得更简单。对样本特征进行装箱的一个好处:它可以纠正模型过拟合或者欠拟合的问题。尤其是当针对大规模高维度的数据集使用线性模型的时候,装箱处理可以大幅提高线性模型的预测准确率。
注意:对于样本数据进行装箱的操作对于基于决策树的算法(如随机森林、梯度上升决策树,当然也包括决策树本身)没有太多的作用,因为这类算法本身就是不停在拆分样本的特征数据,所以不需要再使用装箱操作。