机器学习应用可以分为两大类:
- 回归(Regression)
- 分类(Classification)
这里总结一个回归案例-Bonston housing price predicting- Udacity Machine Learning Nanodegree Project的实现过程。这里应用的数据虽然数值本身不具有代表性(它是1978年搜集的),但是问题解决思路是机器学习回归问题可以通用,并且具有代表性的。
这里总结机器学习回归问题的基本框架。Feature engineering和Ensemble方法(如下)暂不讨论。
- Bagging ensemble-random forest, extra trees
- Boosting ensemble- AdaBoost, Stochastic gradient boosting
- Voting ensemble
- Stack
Solution Outline
- Load data
- Data exploration-Statistical, visualization
- Data preparation-Train/Test split
- Define performance metric
- Analyze model performance-Bias&Variance
- Performance evaluation/Parameter tunning
- kFold cross validation
- Grid search for parameter tunning
- Finalize model and make predictions