数据集:
import pandas as pd
import numpy as np
data=pd.read_csv('C:\\PDM\\train__UnB.csv',encoding='utf8')
备注:这里对数据文件进行转格式,原本的xls编码失败,所以只能尝试转为utf8可以转的csv。
- 对数据进行清洗
data= data.dropna()
- 对数据列进行自变量因变量分割
inputData=data[[list(data.columns)[0:-1]]]
outputData=data[[list(data.columns)[-1]]]
- 导入模型(用回归-逻辑回归)
from sklearn import linear_model
- 进行监督学习
IrModel = linear_model.LogisticRegression()
IrModel.fit(inputData, outputData)
IrModel.score(inputData, outputData)
- 导入测试数据集
newData=pd.read_csv('C:\\PDM\\test__UnB.csv',encoding='utf8')
newData=newData.dropna()
- 数据切片自变量
inputnewData = newData[[list(data.columns)[0:-1]]]
- 预测
IrModel.predict(inputnewData)
这里是二进制数据列,index与inputnewData相同。