书籍:Python Feature Engineering Cookbook: A complete guide to crafting powerful features for your machine learning models, 3rd Edition
作者:Soledad Galli,Christoph Molnar
出版:Packt Publishing
编辑:陈萍萍的公主@一点人工一点智能
01 书籍大纲
借助《Python特征工程实战手册》第三版,在机器学习项目中高效完成数据预处理与特征工程,让数据准备工作更加流畅。
本书针对常见难题——如缺失值插补、类别变量编码——给出基于开源Python库的实用解决方案。
你将掌握数值变量的高级变换、变量离散化及异常值处理技巧。每章均提供分步指令和真实案例,帮助你理解何时以及如何使用各种变换,以获得良好准备的数据。
书中深入探讨从日期、时间、文本等复杂数据类型中提取特征的方法。你将看到如何通过数学运算和决策树创建新特征,并利用Feature-tools与tsfresh等高级工具,从关系型数据和时间序列中自动抽取特征。
阅读完毕,你将能够构建可复现、易于部署到生产环境的特征工程流水线,从而优化数据预处理流程,全面提升机器学习模型性能。
你将学到:
• 多种有效插补缺失值的方法
• 在高基数场景下编码类别变量的技巧
• 如何正确变换、离散化与缩放变量
• 从日期与时间数据中自动提取特征
• 策略性地组合变量,创造更强大的新特征
• 从交易数据与时间序列中提取特征
• 从文本数据中提取有意义特征的技术
适读人群:
如果你是机器学习或数据科学爱好者,希望深入了解特征工程、数据预处理及其优化方法,本书正适合你。如果你已掌握特征工程基础,想进一步学习高级技巧以打造强大特征,本书同样能满足需求。阅读前需具备Python编程和机器学习的基本知识。
02 作者介绍
Soledad Galli是畅销数据科学讲师、作家与开源Python开发者。作为Train in Data的首席讲师,她教授的机器学习进阶与高级课程已吸引全球超过64,000名学员,并持续获得好评。Sole还是开源库Feature-engine的作者与维护者,该库提供了丰富的特征工程与特征选择方法。凭借在金融与保险行业的资深数据科学家经验,她开发并部署了用于保险理赔评估、信用风险评估及反欺诈的机器学习模型。Sole经常在播客、技术聚会与网络研讨会中发表演讲,与更广泛的数据科学社区分享专业知识。