第 14 列为该客户年龄。
第 15 列为该客户性别。
第 16 列为该客户教育程度。
第 17 列为该客户婚姻状况。
*第 18 列为是否为该客户审批新的信用卡。(Yes / No)
问题是:预测是否为该客户审批新的信用卡。
知识点:分类变量哑变量的设置
pd.get_dummies(data, columns=['SEX', 'EDUCATION', 'MARRIAGE'])
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
data=pd.read_csv('/Users/liyili2/Downloads/datas/credit_card_train.csv', header=0)
data = pd.get_dummies(data, columns=['SEX', 'EDUCATION', 'MARRIAGE'])
columns = list(data.columns)
columns.remove('DEFAULT')
columns.append('DEFAULT')
data = data.reindex(columns=columns)
train_feature = data.iloc[:, 1:23].values[:15000]
train_target = data['DEFAULT'].values[:15000]
test_feature= data.iloc[:, 1:23].values[15001:]
test_target = data['DEFAULT'].values[15001:]
model = RandomForestClassifier()
model.fit(train_feature , train_target)
score = model.score(test_feature, test_target)
print(score)
#结果:0.7674612435405901