1. 数据预处理
- int Folat 类型: 'Fare', 'SibSp', 'Age', 'Parch', 'Pclass'
- Fare:
- SibSp:
- Parch:
- Age: [5,15,35,50],缺失未处理
- Pclass: 未处理
- object 类型: * 'Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'
- Name 简单提取职称
- Sex 简单编码
- Ticket 暂不处理,丢弃
- Cabin 缺失值较少用众数填充,用首字母分类
- EMbarked 缺失数据自成一类
- 先处理object,然后处理离散变量,最后连续变量
2. 模型
- 选择模型
- 网格搜索
- 学习曲线
- 交叉验证
- 特征的重要程度
- 重要特征组合
- 对过个模型做以上步骤