泰坦尼克号幸存者的预测

本篇用决策树模型预测泰坦尼克号幸存者。

一、导入数据集并探索数据


变量共计12个,其中5个定性变量,7个定量变量,建模之前需要把定性变量改为定量变量

二、数据清洗

查看缺失值数量


总共891行,其中Age、Cabin、 Embarked 列有缺失值

Cabin缺失值较多尝试删除此列,Name和Ticket对预测y没有帮助,可以删除

并将定性变量转换为定量变量

至此,data数据集中只有Age列有缺失值,缺失值的比例较小,为不影响填充缺失值对训练集和测试集的切分有影响,先切分训练集和测试集再填充缺失值

三、切分训练集和测试集


   现在训练集中所有数据都没有缺失值了

四、开始建模


预测分数到78%,10折交叉验证后得到的预测平均分数75%,方差0.28%,预测分数在74.7%-75.28%之间

用GridSearchCV选择最优参数


通过GridSearchCV选择最优参数后,预测分数提高到了81%

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容