2019-04-08

一、离散化

简单离散

通过定义一些划分规则,将原来连续的数据划分成不同的类别,从而将数据离散化。

分桶后平滑

先根据数据的情况设置一些阈值,在每个桶中可以分别使用落入该桶中所有收入的平均数、中位数、以及边界值来替代桶中所有的数值,这三种方式分别称为平均平滑、中值平滑、以及边界值平滑。

聚类离散

把相同、相似以及相近的数据进行聚合。对每一个聚类的簇进行命名后就是离散的结果。

回归平滑

对两个有相关性的变量进行拟合,用拟合线上的数值代替原来的数值,本质上是进行数据噪声的处理。进行回归平滑后的数据已经具备了线性条件,因而可以使用非常明确的边界值对其进行划分,分成两个或多个。

二、属性构造

属性、字段、特征其实都是同一个意思,就是excel表头上的内容,比如姓名、年龄、身高。

特征工程

通过属性与属性的连接,构造新的属性,比如每天的上网时间这个属性,就可以构造一周的上网时间这个属性。

随意构造后筛选

任意两个或三个乃至更多的属性都可以组合在一起,加减乘除都没有问题。那么构造了这么多属性,怎么判断该使用哪个属性该不该使用哪个属性呢?这里就可以用到XGboost进行筛选。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 找了很多 CSDN都要积分 直接自己搞了个MySQL8.0亲测可以 https://pan.baidu.com/s...
    天渺工作室阅读 2,532评论 0 0
  • 今天还是挺开心的,把自己压抑的情绪释放出来感觉好多了。 每次走在校园的小路上,嗅着桂花清雅的散发出...
    面朝大海W阅读 101评论 0 0
  • 如果我的人生是一本书,以时间换页数,那么一书已过半,人设及基本情节已锁定,后面也不会有怎样的悬念展开了。所以,当然...
    那个小惠子阅读 609评论 1 0
  • 1.快捷键 shift+/可以打开快捷键一览表就不多说了 2.工具栏 LOGO:点击logo进入控制面板Notif...
    水书阅读 751评论 0 0
  • 从六年级开始,踏上了住校之路,至此与宿舍有了断不掉的缘分。以为工作后可以摆脱宿舍,不想,我现在还是住在宿舍。掰着手...
    七奇奇阅读 122评论 0 0