特征工程

工业场景的操作:ID特征新出现哪个1,给它分配一个列向量就好了,也就是embedding look-up table的操作,并不存在一个真正的one-hot特征,更不存在从one-hot特征乘以W再映射到向量的过程

对特征本身做hash,将得到的数字作为它的ID。只要每台机器用的hash算法一样,出来的值就是一样的,一种做法是,给一种特征分配一个编号:Slot ID,每一个特征的取值,hash后得到一个ID,称为FID(feature ID),在一个n位的二进制数字中,前k位用slot ID的二进制表示填充,后面n-k位用FID填充,组成一个整体数字,作为这个feature的最终表示

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 葫芦书是机器学习岗位面试的必读书,第一遍读,就当作对自己这四个月以来入门机器学习的知识测验,顺便查漏补缺。葫芦书比...
    单调不减阅读 1,841评论 0 0
  • 由于学习需要,在此整理了网上特征工程方法,因为其中有很多拓展的内容,所以文章较长。 特征工程常用方法 1. 时间戳...
    ZAK_ML阅读 6,743评论 2 4
  • 前言 如果你能找到这里,真是我的幸运~这里是蓝白绛的学习笔记,本集合主要针对《百面机器学习——算法工程师带你去面试...
    蓝白绛阅读 5,816评论 4 13
  • 1.特征工程 特征抽取 数据特征的预处理 特征选择 为什么需要特征工程对特征中的相关的噪点数据进行处理的,营造出更...
    浅笑_7cad阅读 290评论 0 0
  •   俗话说,“巧妇难为无米之炊”。在机器学习中,数据和特征便是“米”,模型和算法则是“巧妇”。没有充足的数据、合适...
    李涛AT北京阅读 489评论 0 0