Kaggle比赛首页有两个持续进行的项目,其中一个是回归类型。自2016年以来到2018年8月,尽管没有奖金但是参与者众多,而且几乎天天都有更新。目前已经有1.4万人次参与此比赛。其成绩也实时向大众公开。Kaggle在Public Leaderboard公布了排名靠前的参赛者称呼,名次,
成绩,提交次数,上一次提交距今时间。
这个比赛的名称为:House Prices: Advanced Regression Techniques. 需要预测房屋销售价格并且练习特征工程和熟悉随机森林Random Forests,Gradient Boosting Regressor等。由于有导师辅导,是Kaggle比赛入门的极好的练手项目。
此比赛项目的数据集有79个特征变量描述了美国衣阿华州AMES地区数年来的居住房屋销售。比赛的目标是挑战参赛者预测房屋的销售价格。参赛者提交的报告评分是基于RMSE做出的(ROOT-MEAN-SQUARED-ERROR). 其计算公式为
(Pi 为预测第i个房屋的销售价格;Oi为第i个房屋的实际销售价格,n为样本数。注意,此次的销售价格数据进行了取对数处理,这样价格高和价格低对偏差的影响就相同了)
来,让我们一起看看这个最热门常青树——Kaggle机器学习比赛项目House Price回归分析的比赛战况分析吧。我们用Python语言分析了最新的的公开得分排名,读者可以在Kaggle官网下载原始数据。
希望本分析可以为在机器学习,数据分析的道路上探索、实践的你提供启发!“熟能生巧”Honing your skills.
接下来,还会有一系列进一步的挖掘和分析!