本篇用决策树模型预测泰坦尼克号幸存者。
一、导入数据集并探索数据
变量共计12个,其中5个定性变量,7个定量变量,建模之前需要把定性变量改为定量变量
二、数据清洗
查看缺失值数量
总共891行,其中Age、Cabin、
Embarked
列有缺失值
Cabin缺失值较多尝试删除此列,Name和Ticket对预测y没有帮助,可以删除
并将定性变量转换为定量变量
至此,data数据集中只有Age列有缺失值,缺失值的比例较小,为不影响填充缺失值对训练集和测试集的切分有影响,先切分训练集和测试集再填充缺失值
三、切分训练集和测试集
现在训练集中所有数据都没有缺失值了
四、开始建模
预测分数到78%,10折交叉验证后得到的预测平均分数75%,方差0.28%,预测分数在74.7%-75.28%之间
用GridSearchCV选择最优参数
通过GridSearchCV选择最优参数后,预测分数提高到了81%