7.竞赛-kaggle-泰坦尼克梳理

1. 数据预处理

  1. int Folat 类型: 'Fare', 'SibSp', 'Age', 'Parch', 'Pclass'
    • Fare:
    • SibSp:
    • Parch:
    • Age: [5,15,35,50],缺失未处理
    • Pclass: 未处理
  2. object 类型: * 'Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'
    • Name 简单提取职称
    • Sex 简单编码
    • Ticket 暂不处理,丢弃
    • Cabin 缺失值较少用众数填充,用首字母分类
    • EMbarked 缺失数据自成一类
  3. 先处理object,然后处理离散变量,最后连续变量

2. 模型

  • 选择模型
    • 网格搜索
    • 学习曲线
    • 交叉验证
    • 特征的重要程度
    • 重要特征组合
  • 对过个模型做以上步骤

3. 模型融合

3.1 stacking

3.2 blending

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容