债务违约预测之三:利用sklearn进行预测

%matplotlib inline
import pandas as pd
import numpy as np 
from sklearn import cross_validation
from sklearn.metrics import confusion_matrix
from sklearn.linear_model.logistic import LogisticRegression  

import warnings
warnings.filterwarnings('ignore') #为了整洁,去除弹出的warnings
#读入数据,清洗数据
df=pd.read_csv( 'cs-training.csv')
df = df.drop(df.columns[0],axis=1)
df=df[df.age>=18]
#对空值进行填充
df['MonthlyIncome'].fillna(df['MonthlyIncome'].mean(), inplace=True)
df['NumberOfDependents'].fillna(df['NumberOfDependents'].mode()[0], inplace=True)
#把因变量和自变量分别提取出来,成为两个数据集
y_feature = df['SeriousDlqin2yrs']
x_features = df.drop('SeriousDlqin2yrs', axis=1)
#按照80%的比例,把两个数据集又分为训练集和测试集(X_1,Y_1是训练集,X_2, Y_2是测试集)
X_1, X_2, Y_1, Y_2 = cross_validation.train_test_split(
    x_features, y_feature, test_size=0.8, random_state=0)
logic_clf = LogisticRegression()  #生成一个逻辑回归模型
logic_clf.fit(X_1,Y_1)  #用训练集进行拟合,获得模型
LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)
predictions = logic_clf.predict(X_2) 
#用模型对X_2进行测试,即判断X_2里面每个记录的违约情况,并把结果储存在predictions中
matrix = confusion_matrix(predictions, Y_2) #显示混淆矩阵
score = logic_clf.score(X_2, Y_2) # 用模型对X_2进行测试,并与Y_2比较,获得准确率
print("accuracy:",score)
print(matrix)
accuracy: 0.933141666667
[[111803   7854]
 [   169    174]]
关于混淆矩阵,参考下图
TP(预测为真,实际也为真),TN(预测为假,实际也为假) 都是预测准确的,FN( 预测为假,实际为真),FP(预测为真,实际为假 ) 则是预测错误的。所以准确率=(TP+TN)/样本总数。
#换一个朴素贝叶斯 高斯模型来预测
from sklearn.naive_bayes import GaussianNB
gnb_clf = GaussianNB()  
gnb_clf.fit(X_1,Y_1)
GaussianNB(priors=None)
gnb_prediction = gnb_clf.predict(X_2)
gnb_matrix = confusion_matrix(gnb_prediction, Y_2)
gnb_score = gnb_clf.score(X_2, Y_2)
print("accuracy:",gnb_score)
print( gnb_matrix)
accuracy: 0.9314
[[111589   7849]
 [   383    179]]

  • 参考
    sklearn 文档中的1.1.10. 逻辑回归和1.9.1. 朴素贝叶斯 高斯模型 两部分。

scikit-learn 朴素贝叶斯类库使用小结

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容