2019-02-24

本周主要在做项目Project: Finding Donors for CharityML

一个完整的数据分析项目包括数据清洗,探索和分析,但是由于主要侧重点在于机器学习sklearn方法的掌握,所以只关注在选择algorithm,还有预测,并且对模型的好坏进行评估方面。这里不会贴出完整的项目代码。课程完结之后会上传到github上。

1、对于高度倾斜的特征分布,使用对数变换明显减少了异常值引起的值的范围。


2、标准化数值特征sklearn.preprocessing.MinMaxScaler

3、将数据集拆分成训练集和测试集from sklearn.model_selection import train_test_split

4、评估模型性能𝐹𝛽=(1+𝛽2)⋅𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛⋅𝑟𝑒𝑐𝑎𝑙𝑙 / (𝛽2⋅𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛)+𝑟𝑒𝑐𝑎𝑙𝑙

5、选用最优模型参数from sklearn.model_selection import GridSearchCV

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容