本文以python内置数据集iris为例,对分类问题中常用的算法进行总结。
一、导入文件
import pandas as pd
# from sklearn.cross_validation import train_test_split,cross_val_score # sklearn 版本0.17使用
from sklearn.model_selection import train_test_split,cross_val_score # sklearn 版本0.20.2使用
from sklearn import datasets
确定自变量和因变量:
rawfile = datasets.load_iris()
rawfile.feature_names # 获取自变量名称
rawfile.data # 获取自变量取值
rawfile.target # 获取因变量取值,0=setosa,1=versicolor,2=virginica
file = pd.DataFrame(data=rawfile.data, columns=rawfile.feature_names)
x = file
y = rawfile.target
file.head()
数据展示:
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm)
0 5.1 3.5 1.4 0.2
1 4.9 3.0 1.4 0.2
2 4.7 3.2 1.3 0.2
3 4.6 3.1 1.5 0.2
4 5.0 3.6 1.4 0.2
二、建模
(一)逻辑回归
- 原理简述:
创建逻辑函数,如果有了一个或多个自变量,输出的y值在[0,1]之间,表示概率。如果f(x)的值在0.5以上则为1,在0.5以下,则为0。仅适用于二元分类。
from sklearn.linear_model.logistic import LogisticRegression
model = LogisticRegression()
model.fit(x_train, y_train)
(二)knn近邻
原理简述:
1)计算测试数据与各个训练数据之间的距离;
2)按照距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的出现频率;
5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。
如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。由此也说明了KNN算法的结果很大程度取决于K的选择。
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier()
model.fit(x_train, y_train)
三、评估
(一)准确率accuracy
(TP+TN)/(TP+TN+FP+FN)预测对的/所有。
局限性:
1、无法区分假阴和假阳
2、在总体比例一边倒的情况下,准确率并不有效。比如信用卡中的虚假交易很少,但是大部分正常交易都能预测为正常交易,很高的准确率并不能说明虚假交易预测很好。这时需要结合看精确率和召回率,尤其要重点关注不同y标签的精确率和召回率,具体看是预测哪个标签时经常出错:比如体检更关心假阳而非假音。但是准确率无法看出来。
# 方法一:
print(model.score(x_test, y_test)) # 在对模型训练后,输入测试集的x,以及正确的y
# 方法二:
from sklearn import metrics
print('accuracy_score:', metrics.accuracy_score(y_test, y_test_model)) # 输入正确的y & 模型训练出来的y
(二)精确率precision
TP/(TP+FP) 表示测试集中预测为正的样本中,有多少真的是正。猜测将标签中为1的值返回。
print('precision_score:', metrics.precision_score(y_test, y_test_model))
(三)召回率recall
TP/(TP+FN) 表示测试集中真正为正的样本中,有多少被正确预测了。猜测将标签中为1的值返回。
print('recall_score:', metrics.recall_score(y_test, y_test_model))
(四)f1值
综合评价指标(F1 measure)是精确率和召回率的调和均值(harmonic mean),或加权平均值,也称为F-measure或fF-score。
print('f1:', metrics.f1_score(y_test, y_test_model))
评估报告
精确率+召回率+f1值+标签训练结果出现次数
print(classification_report(y_test, y_test_model)) # 把生存规定为正类,和把没有生存规定为正类,计算出来的精确率和召回率是不一样的。但是准确率的计算都相同。