二手车价格预测比赛-赛题理解与baseline

分类算法常见的评估指标如下:

对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。

对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。

对于回归预测类常见的评估指标如下:

平均绝对误差(Mean Absolute Error,MAE),均方误差(Mean Squared Error,MSE),平均绝对百分误差(Mean Absolute Percentage Error,MAPE),均方根误差(Root Mean Squared Error), R2(R-Square)

做比赛的流程:先写baseline,然后在baseline上面改。

baseline构建流程:

1、导入数据
2、看shape、head()、info()、describe()。

简单的EDA,发现数据是否有异常、train和test的分布是否接近。分布一致的话,模型的泛化效果好。如果分布不一致,就要通过采样的方式,使训练集跟测试集分布一致。

3、特征工程

非数值列,需要做一些encoding。将数值类型的特征列名提取出来。由于是baseline,这里粗选了几个特征。后面需要做进一步的扩充。

4、缺失值填补

如果用线性回归、svm,需要全部填补,如果用xgb,可以不用填补。

5、查看标签的分布信息

train和test需要相似的分布

6、模型的训练和预测

a)可以利用xgb进行五折交叉验证查看模型的参数效果。可以手动调参试试看效果。
b)或者定义xgb和lgb两种模型,如果数据集小,或者时间充足,可以定义网格搜索的调参方式。然后直接split切分数据,一般0.2的测试集。分别使用xgb和lgb进行训练和预测。

7、模型融合

加权融合,误差小的权重大。还要再加上一个赋值处理,如果预测出来小于0,就给赋值10。

8、预测需要提交的数据

将数据格式要整理成规定的格式。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容