债务违约预测之三：利用sklearn进行预测

%matplotlib inline
import pandas as pd
import numpy as np 
from sklearn import cross_validation
from sklearn.metrics import confusion_matrix
from sklearn.linear_model.logistic import LogisticRegression  

import warnings
warnings.filterwarnings('ignore') #为了整洁，去除弹出的warnings

#读入数据，清洗数据
df=pd.read_csv( 'cs-training.csv')
df = df.drop(df.columns[0],axis=1)
df=df[df.age>=18]

#对空值进行填充
df['MonthlyIncome'].fillna(df['MonthlyIncome'].mean(), inplace=True)
df['NumberOfDependents'].fillna(df['NumberOfDependents'].mode()[0], inplace=True)

#把因变量和自变量分别提取出来，成为两个数据集
y_feature = df['SeriousDlqin2yrs']
x_features = df.drop('SeriousDlqin2yrs', axis=1)

#按照80%的比例，把两个数据集又分为训练集和测试集（X_1,Y_1是训练集，X_2, Y_2是测试集）
X_1, X_2, Y_1, Y_2 = cross_validation.train_test_split(
    x_features, y_feature, test_size=0.8, random_state=0)

logic_clf = LogisticRegression()  #生成一个逻辑回归模型
logic_clf.fit(X_1,Y_1)  #用训练集进行拟合，获得模型

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

predictions = logic_clf.predict(X_2) 
#用模型对X_2进行测试，即判断X_2里面每个记录的违约情况，并把结果储存在predictions中

matrix = confusion_matrix(predictions, Y_2) #显示混淆矩阵
score = logic_clf.score(X_2, Y_2) # 用模型对X_2进行测试，并与Y_2比较，获得准确率
print("accuracy:",score)
print(matrix)

accuracy: 0.933141666667
[[111803   7854]
 [   169    174]]

关于混淆矩阵，参考下图

TP（预测为真，实际也为真），TN(预测为假，实际也为假) 都是预测准确的，FN( 预测为假，实际为真)，FP(预测为真，实际为假 ) 则是预测错误的。所以准确率=(TP+TN)/样本总数。

#换一个朴素贝叶斯 高斯模型来预测
from sklearn.naive_bayes import GaussianNB
gnb_clf = GaussianNB()

gnb_clf.fit(X_1,Y_1)

GaussianNB(priors=None)

gnb_prediction = gnb_clf.predict(X_2)

gnb_matrix = confusion_matrix(gnb_prediction, Y_2)
gnb_score = gnb_clf.score(X_2, Y_2)

print("accuracy:",gnb_score)
print( gnb_matrix)

accuracy: 0.9314
[[111589   7849]
 [   383    179]]

参考
sklearn 文档中的1.1.10. 逻辑回归和1.9.1. 朴素贝叶斯高斯模型两部分。

scikit-learn 朴素贝叶斯类库使用小结

债务违约预测之三：利用sklearn进行预测

推荐阅读更多精彩内容