二手车价格预测比赛-赛题理解与baseline

分类算法常见的评估指标如下：

对于二类分类器/分类算法，评价指标主要有accuracy， [Precision，Recall，F-score，Pr曲线]，ROC-AUC曲线。

对于多类分类器/分类算法，评价指标主要有accuracy， [宏平均和微平均，F-score]。

对于回归预测类常见的评估指标如下:

平均绝对误差（Mean Absolute Error，MAE），均方误差（Mean Squared Error，MSE），平均绝对百分误差（Mean Absolute Percentage Error，MAPE），均方根误差（Root Mean Squared Error）， R2（R-Square）

做比赛的流程：先写baseline，然后在baseline上面改。

baseline构建流程：

1、导入数据

2、看shape、head()、info()、describe()。

简单的EDA，发现数据是否有异常、train和test的分布是否接近。分布一致的话，模型的泛化效果好。如果分布不一致，就要通过采样的方式，使训练集跟测试集分布一致。

3、特征工程

非数值列，需要做一些encoding。将数值类型的特征列名提取出来。由于是baseline，这里粗选了几个特征。后面需要做进一步的扩充。

4、缺失值填补

如果用线性回归、svm，需要全部填补，如果用xgb，可以不用填补。

5、查看标签的分布信息

train和test需要相似的分布

6、模型的训练和预测

a)可以利用xgb进行五折交叉验证查看模型的参数效果。可以手动调参试试看效果。
b)或者定义xgb和lgb两种模型，如果数据集小，或者时间充足，可以定义网格搜索的调参方式。然后直接split切分数据，一般0.2的测试集。分别使用xgb和lgb进行训练和预测。

7、模型融合

加权融合，误差小的权重大。还要再加上一个赋值处理，如果预测出来小于0，就给赋值10。

8、预测需要提交的数据

将数据格式要整理成规定的格式。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

二手车价格预测比赛-赛题理解与baseline