《Python特征工程实战手册(第3版)》

书籍:Python Feature Engineering Cookbook: A complete guide to crafting powerful features for your machine learning models, 3rd Edition

作者:Soledad Galli,Christoph Molnar

出版:Packt Publishing

编辑:陈萍萍的公主@一点人工一点智能

01 书籍大纲

借助《Python特征工程实战手册》第三版,在机器学习项目中高效完成数据预处理与特征工程,让数据准备工作更加流畅。

本书针对常见难题——如缺失值插补、类别变量编码——给出基于开源Python库的实用解决方案。

你将掌握数值变量的高级变换、变量离散化及异常值处理技巧。每章均提供分步指令和真实案例,帮助你理解何时以及如何使用各种变换,以获得良好准备的数据。

书中深入探讨从日期、时间、文本等复杂数据类型中提取特征的方法。你将看到如何通过数学运算和决策树创建新特征,并利用Feature-tools与tsfresh等高级工具,从关系型数据和时间序列中自动抽取特征。

阅读完毕,你将能够构建可复现、易于部署到生产环境的特征工程流水线,从而优化数据预处理流程,全面提升机器学习模型性能。

你将学到:

• 多种有效插补缺失值的方法

• 在高基数场景下编码类别变量的技巧

• 如何正确变换、离散化与缩放变量

• 从日期与时间数据中自动提取特征

• 策略性地组合变量,创造更强大的新特征

• 从交易数据与时间序列中提取特征

• 从文本数据中提取有意义特征的技术

适读人群:

如果你是机器学习或数据科学爱好者,希望深入了解特征工程、数据预处理及其优化方法,本书正适合你。如果你已掌握特征工程基础,想进一步学习高级技巧以打造强大特征,本书同样能满足需求。阅读前需具备Python编程和机器学习的基本知识。

02 作者介绍

Soledad Galli是畅销数据科学讲师、作家与开源Python开发者。作为Train in Data的首席讲师,她教授的机器学习进阶与高级课程已吸引全球超过64,000名学员,并持续获得好评。Sole还是开源库Feature-engine的作者与维护者,该库提供了丰富的特征工程与特征选择方法。凭借在金融与保险行业的资深数据科学家经验,她开发并部署了用于保险理赔评估、信用风险评估及反欺诈的机器学习模型。Sole经常在播客、技术聚会与网络研讨会中发表演讲,与更广泛的数据科学社区分享专业知识。

03 书籍大纲

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容