有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。
定义及意义
定义
特征工程(Feature Engineering)特征工程是将原始数据转化成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。
特征工程简单讲就是发现对因变量y有明显影响作用的特征,通常称自变量x为特征,特征工程的目的是发现重要特征。
如何能够分解和聚合原始数据,以更好的表达问题的本质?这是做特征工程的目的。“feature engineering is manually designing what the input x’s should be.” “you have to turn your inputs into things the algorithm can understand.”
特征工程是数据挖掘模型开发中最耗时、最重要的一步。
意义
特征工程(Feature Engineering)特征工程是将原始数据转化成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。
特征工程简单讲就是发现对因变量y有明显影响作用的特征,通常称自变量x为特征,特征工程的目的是发现重要特征。
如何能够分解和聚合原始数据,以更好的表达问题的本质?这是做特征工程的目的。“feature engineering is manually designing what the input x’s should be.” “you have to turn your inputs into things the algorithm can understand.”
特征工程是数据挖掘模型开发中最耗时、最重要的一步。
相关概念
基本概念
属性:属性是输入变量,即简单线性回归中的 x 变量。简单的机器学习项目可能会使用单个属性,而比较复杂的机器学习项目可能会使用数百万个属性。
特征(Feature):特征是数据中抽取出来的对结果预测有用的信息/属性。
标签(Label):标签是我们要预测的事物,即简单线性回归中的 y 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。
样本(Example):样本是指数据的特定实例:x。(我们采用粗体 x 表示它是一个矢量。)我们将样本分为以下两类:有标签样本;无标签样本。
模型(Model):模型定义了特征与标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。
学习/训练(Training):是指创建或学习模型。也就是说,向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。
推断(Inference):是指将训练后的模型应用于无标签样本。也就是说,使用经过训练的模型做出有用的预测 (y')。例如,在推断期间,您可以针对新的无标签样本预测。
回归(Regression):回归就是我们数学学习的线性方程,是一种经典函数逼近算法。在机器学习中,就是根据数据集,建立一个线性方程组,能够无线逼近数据集中的数据点,是一种基于已有数据关系实现预测的算法。
分类(Classification):顾名思义,分类模型可用来预测离散值。例如,分类模型做出的预测可回答如下问题:是/否问题,某个指定电子邮件是垃圾邮件还是非垃圾邮件?图片是动物还是人?
特征向量:一个特征不足以代表一个物体,所以机器学习中使用特征的组合--特征向量。它是一个 n 维的数值向量,可以用来代表某个东西。比如人脸识别中,使用256维度的向量来代表一个人的面部特征。特征向量都是为了解决实际问题而专门设计的,比如进行人脸识别的场景和进行水果种类识别的场景,使用的特征向量肯定是不一样的。
特征重要性:特征重要性得分可以帮助了解数据集 相对得分可以突出显示哪些特征可能与目标最相关,反之则突出哪些特征最不相关。这可以由一个领域专家解释,并且可以用作收集更多的或不同的数据的基础。我们一般在做最终项目总结汇报时,有一页PPT会专门介绍该模型中Top N重要的特征;因为很多时候业务方都需要我们的模型可解释,你使用了哪些特征需要和业务方解释,业务方会从业务层面来判断你这个模型背后的业务逻辑是否合理。尤其是金融领域,模型可解释是必备的。金融都是和钱、风险挂钩的,如果模型使用的特征在业务层面解释不过去,业务方就会质疑模型的有效。
概念区分
并不是所有的属性都可以看做特征,区分它们的关键在于看这个属性对解决这个问题有没有影响!可以认为特征是对于建模任务有用的属性。表格式的数据是用行来表示一个实例,列来表示属性和变量。每一个属性可以是一个特征。特征与属性的不同之处在于,特征可以表达更多的跟问题上下文有关的内容。特征是一个对于问题建模有意义的属性。我们使用有意义(有用的)来区别特征和属性,认为如果一个特征没有意义是不会被认为是特征的,如果一个特征对问题没有影响,那就不是这个问题的一部分。在计算机视觉领域,一幅图像是一个对象,但是一个特征可能是图像中的一行;在自然语言处理中每一个文档或者一条微博是一个对象,一个短语或者单词的计数可以作为特征;在语音识别中,一段声音是一个实例,一个特征可能是单个词或者发音。
话不多说,上图。
我们先看看什么是多标签分类。例如上面这个截图,来自于一部电影。很显然,每一部电影的名字只有一个,上面的电影是《红海行动》,它不可能是《金刚大战哥斯拉》,也不是《美国队长》。这就是多分类。也就是说,也很多类别,但是对一个实例而言,有且只有一个类别是属于它的,就像电影名字。
那什么是多标签呢?
还是看上面的图,红色的框标出了几个例子。这个电影被标记了“战争”,“普通话”,“华语”这几个标签。这就是多标签。也就是说,一个实例,在某个时刻,可能有多个标签来描述它。
分类是一个预测建模问题,它涉及到在给定输入的情况下输出类标签。不同于涉及预测数值的回归任务,通常,分类任务涉及预测单个标签,在这些情况下,类是互斥的,这意味着分类任务假定输入只属于一个类。
有些分类任务需要预测多个类标签。这意味着类标签或类成员不是互斥的。这些任务称为多标签分类,简称多标签分类。在多标签分类中,每个输入样本需要零个或多个标签作为输出,同时需要输出。
应用场景
收集公司中员工的面部特征值作为底库,在公司门口使用摄像头分析镜头前来人的特征,两者做比对就可以作为门禁使用。可以使用逃犯的照片作为底库,在演唱会门口分析参会人员的特征,就可以抓逃犯。
场景说明:用户来银行申请贷款,数据科学家根据用户申请信息、征信数据等等,构建一个反欺诈信用评分模型。分数取值在【0,100】之间,100分代表用户欺诈程度极高,0分代表用户欺诈程度极低,为每一个客户进行信用评分。
使用模型:LR模型;
专家规则:专家规则有很多,我列举几个常见且易懂的规则。
1.信息是否一致:银行风控人员在审核贷款申请时,特别关注用户的申请信息和央行征信报告上的数据是否一致,比如申请表上写的离异,但是征信报告上却是已婚。申请表上写的是A公司,征信报告上却是B公司。如果出现此类情况,说明用户存在隐瞒真实信息的可能;
2.不同时间段内的还款行为:做过金融行业信贷风控审批的肯定都知道一条专家规则 “半年内不能连三累六” ,这句话的意思是说用户在半年内不能有六次的贷款逾期,且不能有连续三个月贷款逾期不还。稍微解释一下这条规则,可能部分读者觉得半年内贷款逾期六次也太夸张了,实际上满多用户不注意还款时间,加上很多小企业主有很多贷款信用卡等,还款晚了一两天很正常,所以半年内有个2,3次逾期还蛮正常的,但是6次就超过银行风控的底线了。
3.基本信息:用户的年龄、学历、籍贯等等都会综合考虑;专家规则转化为特征工程:关键的一步来了,如何将专家规则转化为特征工程?
4.信息是否一致:转化为冲突类特征,模型中会将申请信息的很多关键信息与征信报告中的信息进行比对;基本信息:转化为基本特征,同时在此之上我们会衍生很多复合类特征;
5.不同时间段内的还款行为:转化为聚合特征,按照时间来分桶。将用户的还款行为和时间组合在一起,模型中我们可能会按照近1个月、3个月、6个月、12个月、24个月来分桶。其实不仅是将用户的还款行为来按照时间分桶,我们还会将用户的历史负债行为、申请贷款记录等等,按照时间来分桶,只是有的可能是6个桶,有的可能是12个桶等等。
场景说明:用户在生鲜电商APP上如叮咚买菜、盒马生鲜,购买相关生鲜商品。购物车的下方,会有“经常一起买“栏位,根据用户已经加购的商品为用户推荐其他商品。数据科学家构建一个推荐模型,为用户千人千面地推荐相应的商品。传统的零售运营,都是后台运营系统根据门店手动配置的,定位在这个门店的用户,不管购物车加购什么商品,最后“经常一起买”栏位展示的商品都是完全一样的。
使用模型:协同过滤算法+LR模型
专家规则:不同季节不同门店推荐不同的商品:电商运营会根据不同季节以及门店所处地域来配置商品。比如春节快到了,就会配置“春联”、“饺子皮”、“酵母粉”等。川渝地域就会配置“火锅底料”等;
推荐热销的商品:有时候会配置一些这个门店热销的商品,比如该门店最近”特仑苏“卖的特别好,就会统一为用户推荐“特仑苏“。
专家规则转化为特征工程:在零售推荐场景下,专家规则起到的作用就远远没有贷款申请反欺诈领域大了。不是说规则不重要,而是说该场景比较容易理解,那些专家规则数据科学家也比较容易想到。
不同季节不同门店推荐不同的商品:转化为“门店画像的时窗统计特征”,数据科学家按照门店维度统计不同历史时窗内(如近3、7、30天)商品的销售量、销售额;门店维度不同历史时窗内(如近3、7、30天)售出商品品类、价格的聚合类衍生特征等等。
推荐热销的商品:热销商品其实在推荐场景下更多是用在召回策略里面,千人千面的排序策略中,我们会构造一个“用户商品画像的时窗统计特征”,如统计用户商品组合维度不同历史时窗内(如近3、7、30天)的购买频次、价格等。
内容来源及参考资料:
(侵权联删)
ONE MORE THING
咪豆AI圈(Meedo)针对当前人工智能领域行业入门成本较高、碎片化信息严重、资源链接不足等痛点问题,致力于打造人工智能领域的全资源、深内容、广链接三位一体的在线科研社区平台,提供AI导航网、AI版知乎,AI知识树和AI圈子等服务,欢迎AI未来儿一起来探索。