经过了前面的数据清洗、重构以及可视化后,进入基于数据的建模,建立模型后为了判断模型的可靠性需要对模型进行评价。
以泰坦尼克号为例:
首先引用所需要用到的库,同时载入原始数据和清洗后的数据。
用sklearn中的函数对数据集进行建模。首先对数据集进行切割,分成训练集和测试集。
然后插入模型,这里选择的是逻辑回归模型和随机森林模型。以逻辑回归模型为例得到训练集和测试集的分数:
最后输出模型预测的结果:
接下来一步是对模型的评估。
通过交叉验证、混淆矩阵、ROC曲线等方式进行模型的评估,通过不断调整参数来确定模型的优劣。