%matplotlib inline
import pandas as pd
import numpy as np
from sklearn import cross_validation
from sklearn.metrics import confusion_matrix
from sklearn.linear_model.logistic import LogisticRegression
import warnings
warnings.filterwarnings('ignore') #为了整洁,去除弹出的warnings
#读入数据,清洗数据
df=pd.read_csv( 'cs-training.csv')
df = df.drop(df.columns[0],axis=1)
df=df[df.age>=18]
#对空值进行填充
df['MonthlyIncome'].fillna(df['MonthlyIncome'].mean(), inplace=True)
df['NumberOfDependents'].fillna(df['NumberOfDependents'].mode()[0], inplace=True)
#把因变量和自变量分别提取出来,成为两个数据集
y_feature = df['SeriousDlqin2yrs']
x_features = df.drop('SeriousDlqin2yrs', axis=1)
#按照80%的比例,把两个数据集又分为训练集和测试集(X_1,Y_1是训练集,X_2, Y_2是测试集)
X_1, X_2, Y_1, Y_2 = cross_validation.train_test_split(
x_features, y_feature, test_size=0.8, random_state=0)
logic_clf = LogisticRegression() #生成一个逻辑回归模型
logic_clf.fit(X_1,Y_1) #用训练集进行拟合,获得模型
LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
verbose=0, warm_start=False)
predictions = logic_clf.predict(X_2)
#用模型对X_2进行测试,即判断X_2里面每个记录的违约情况,并把结果储存在predictions中
matrix = confusion_matrix(predictions, Y_2) #显示混淆矩阵
score = logic_clf.score(X_2, Y_2) # 用模型对X_2进行测试,并与Y_2比较,获得准确率
print("accuracy:",score)
print(matrix)
accuracy: 0.933141666667
[[111803 7854]
[ 169 174]]
关于混淆矩阵,参考下图
TP(预测为真,实际也为真),TN(预测为假,实际也为假) 都是预测准确的,FN( 预测为假,实际为真),FP(预测为真,实际为假 ) 则是预测错误的。所以准确率=(TP+TN)/样本总数。
#换一个朴素贝叶斯 高斯模型来预测
from sklearn.naive_bayes import GaussianNB
gnb_clf = GaussianNB()
gnb_clf.fit(X_1,Y_1)
GaussianNB(priors=None)
gnb_prediction = gnb_clf.predict(X_2)
gnb_matrix = confusion_matrix(gnb_prediction, Y_2)
gnb_score = gnb_clf.score(X_2, Y_2)
print("accuracy:",gnb_score)
print( gnb_matrix)
accuracy: 0.9314
[[111589 7849]
[ 383 179]]
- 参考
sklearn 文档中的1.1.10. 逻辑回归和1.9.1. 朴素贝叶斯 高斯模型 两部分。
scikit-learn 朴素贝叶斯类库使用小结