特征工程实践总结

特征工程是将原始数据,通过业务逻辑理解、数据变换、特征交叉与组合等方式,量化成模型训练和预测可直接使用的特征的过程。其中主要包括了数据认知,数据清洗,特征构建,特征选择四个部分。

数据认知:基于实际业务场景理解数据内容,发现数据与研究问题的关系。

数据清洗:对数据进行规整,移除重复变量、处理缺失、异常数据等。

特征构建:通过业务理解和技术实施,构造出描述研究问题的特征。

特征选择:在构造的特征中筛选出最能刻画研究问题的特征。

数据认知

根据业务需求,确定数据提取范围,包括数据内容、数据时间范围。

数据清洗

观察提取出的数据,进行异常数据、缺省数据、重复数据等的处理。

特征构建

特征构建是指从原始数据中人工的找出一些具有物理意义的特征,将原始数据属性转换为数据特征。以便更好地找到数据的潜在趋势,减少噪声干扰,便于后续建模。常用的特征构建方法如下:

1、业务特征

业务特征来源于实际业务场景中的数据,通过这些数据往往可以构造出大量的反应业务特点的特征。比如客户的年龄、性别、婚姻状态、居住状态等基本信息。

2、RFMP分析

RFMP分析就是根据客户活跃程度和交易金额的贡献,进行客户价值细分的一种方法。RFMP 含义如下:

R(Recency):客户最近一次交易时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。

F(Frequency):客户在最近一段时间内交易的次数。F值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。

M(Monetary):客户在最近一段时间内交易的金额。M值越大,表示客户价值越高,反之则表示客户价值越低。

P(Percentage):客户在最近一段时间内交易频次或者金额的占比。P值越大,表示客户价值越高,反之则表示客户价值越低。

特征选择

为了得到更好的模型,使用某些算法自动的筛选出原始特征的子集。特征选择不会构建或修改已有的特征,但是会通过修剪特征来进一步减少噪声和冗余。常用的特征选择方法有:

1、Filter方法 

对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。

主要的方法有:Chi-squared test(卡方检验),ID3(信息增益) ,correlation coefficient scores(相关系数)

2、Wrapper方法: 

根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。

主要方法有:recursive feature elimination algorithm(递归特征消除算法)

3、Embedded方法 

先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。

主要方法:基于惩罚项的特征选择法、基于树模型的特征选择法

输入:待处理的特征变量

输出:特征变量IV值、WOE编码、挑选后的特征变量

当上述过程完成后,可能还会存在特征矩阵过大,导致计算量大、训练时间长的问题,因此可进一步对特征进行降维处理。常用的降维方法主要包括PCA(主成分分析法)和LDA(线性判别分析法)等。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,177评论 2 89
  • 销售高手、精英团队培训教程 完整讲义 ...
    八戒369阅读 33,662评论 10 377
  • Swift1> Swift和OC的区别1.1> Swift没有地址/指针的概念1.2> 泛型1.3> 类型严谨 对...
    cosWriter阅读 13,887评论 1 32
  • 你有没有一种冲动想站在云桥的护栏上背对着湖水张开双臂缓缓向后倒下然后就这样静静地躺在湖面之上随着湖水飘远眼里尽是蓝...
    棺非阅读 1,950评论 2 7
  • 早上好!静暖人生:每日一句正能量[玫瑰][玫瑰][玫瑰] (2018年9月27日 农历八月十八 星期四) 当扣子离...
    侠姐27687阅读 1,472评论 0 1

友情链接更多精彩内容