1建模步骤
,前面也将写过这个,这里再次复习下。
建模的五个步骤:
1 模型选择
2模型超参数的优化
3 模式fitting
4 模型校正
5 模型实际使用
1-4是循环进行,直到建立最佳模型
2 模型评价
1 预测能力(真实值与预测值的差别)
2 简约(不需要过拟合,即不要使用过多变量)
3 外部验证(常与简约相关)
3 验证
1 在模型的超参数优化时,使用cross validation
2 评价最终的模型。
当建模型时,不能使用验证的数据信息。
4数据划分
避免过优化, 看test error
经典分类: 70%为train, 30%为test set
增加分析: 60%为train., 20%为test (优化超参),20% holdout (验证), 适合具有较大数据
cross-validation:k-fold, 使用平均值进行模型评价。分为LOOCV,LOGOCV(按组分,如来源),Time Series CV (train 永远在test的前面),stratified cross (分层抽),nested cross(多次按增加分类进行)
Bootstrap:有放回的抽取。63.2%为train. 剩下为test
5 模型检测
查看模型的前提假设(一般是对residual),也可以查看变量的贡献,敏感性分析。对于分类性状,可以查看各分类的概率
变量贡献的评价:模型一般有各自特定的评价,如随机森林使用important评价。
边际贡献,V(A,B) - V(A)
Shapley values: 平均所有边际贡献
SHAP values: 是对shapley + explanation value
敏感分析:
变量敏感性,给测试变量随机加入nosie,看其变化。或者对不同变量组合进行测试。
global敏感性: 新的数据进行测试
6 模型比较
一般指标: 回归模型: R2, RMSE,分类模型: 准确性, AUC等
CV和bootstrap可以对多次表现进行测试
两两比较
Student T-test, Wilcoxon Signed Rank test.
分类模型比较: McNemar's Test