本周主要在做项目Project: Finding Donors for CharityML
一个完整的数据分析项目包括数据清洗,探索和分析,但是由于主要侧重点在于机器学习sklearn方法的掌握,所以只关注在选择algorithm,还有预测,并且对模型的好坏进行评估方面。这里不会贴出完整的项目代码。课程完结之后会上传到github上。
1、对于高度倾斜的特征分布,使用对数变换明显减少了异常值引起的值的范围。
2、标准化数值特征sklearn.preprocessing.MinMaxScaler
3、将数据集拆分成训练集和测试集from sklearn.model_selection import train_test_split
4、评估模型性能𝐹𝛽=(1+𝛽2)⋅𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛⋅𝑟𝑒𝑐𝑎𝑙𝑙 / (𝛽2⋅𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛)+𝑟𝑒𝑐𝑎𝑙𝑙
5、选用最优模型参数from sklearn.model_selection import GridSearchCV