一、基本方法论
近似特征的差:适用于聚类、异常值检测等。电商领域常用的两个几乎相等的特征原始订单价和净订单价,相关系数0.9,对大多数用户而言,这两个值是相等的。不等的一小部分客户,是非常特殊的群体,比如有的用户买的所有商品最终都退货,识别这个群体会非常有意义。
比率:订单数、在线时长等,和用户的注册时长和生命周期等有关,将订单数除以用户生命周期(在线时长)等得到的比率更有意义(相较于绝对值)。
组合特征:BMI(体重除以身高的平方),二型糖尿病和BMI指数有强关联性,而BMI定义的业务逻辑很简单:体重应该和人的体积成比例,如果人类是球状的,我们的体重应该跟身高的立方成比例;如果人类是柱状的,我们的体重应该和身高成比例,但人类的形状是介于球体和柱体之间,所以我们的体重应该和身高的平方成比例。
行为轨迹数据:GEO编码值,即经纬度信息,可以用于计算距离,如信用卡消费地距离家庭住址的距离;GEO翻译成POI信息也非常有用。
时间窗口:距离观察时点,根据业务理解的某些特定时间窗口,如近1周、近1月、近3月等,计算近度(如最近一次登录时间)、频度(可横向和纵向计算,纵向:最近7天的多头借贷总次数/最近1个月的多头借贷总次数,横向分母可以为:最近7天的借贷总次数)、数值(绝对值或相对值皆可,绝对值需考虑季节性,同样可以横向和纵向)
二、数理方法
数值变量x,每个特征值都减去均值,代表原始值是否高于均值或者低于均值。
数值变量x,转换为百分位数,
三、自动化方法
FM算法,特征交叉,本质也是数理方法。
四、特征衍生参考
简单关系网络分数
通过关系网络分数,可以反映出该客户通讯亲密度最高的社交圈内人群的综合违约情况。
通讯数据,定义通讯亲密度:
计算关系网络分数:
,v表示客户联系人的违约情况。
附,参考资料:
1、如何生成派生特征,https://zhuanlan.zhihu.com/p/38431080