Deep Neural Networks and Tabular Data: A Survey 深度神经网络与表格数据:综述 2022-04-18

论文地址 https://arxiv.org/pdf/2110.01889.pdf

深度神经网络已经是横行于视觉以及自然语言处理领域,但是为什么在表格数据上却表现平平呢,

这篇论文——
啊 摘要的第一个单词就看不懂,Heterogeneous 异质性。
说白了就是不一样,用在表格上指的就是数据类型是不一样的,比如性别和年龄,就是完全不同的信息,


因为不然的话把一张图片用二维数据表式也是一张表格,所以这篇论文着重讨论的是深度学习在异构表格数据上的痛点。

  1. Inappropriate Training Data: missing values, outliers,
  2. Missing or Irregular Spatial Dependencies
  3. Extensive Preprocessing
  4. Model Sensitivity

作者针对从深度神经网络的角度出发列出了四个难点,看到这就不难理解,为什么梯度提升树树模型还是要比深度神经网络更适合处理表格数据,因为这里的很多点,比如缺失值,离群值,以及复杂的数据预处理,GBM都还是都比较容易拿捏。

而很不巧,深度神经网络十分强大的表征能力,却因为表格数据缺失了规律性的空间依赖关系而受到了很大的限制。(自信监督)

这也是为什么迁移学习难以在表格数据上奏效的原因。图片无论是来自哪个数据集,基础的特征都是一些弧形直线等几何图形,而表格数据确是天差地别了。

接下来就是各个模型。


论文对针对异构表格的深度神经网络模型的分类
  • single-dimensional encoding:
    • 确定性地deterministic对每一列进行编码
  • multi-dimensional encoding:
    • 用模型自动对整个(也可以是局部?)输入向量编码
  • 混合模型
    • 完全可微分
      • 可进行端对端训练
    • 局部可微分
      • 比如神经网络和梯度提升树结合
  • 基于Transformer的模型
    • 对,又是那个无处不在的Transformer
  • 正则化模型
    • 通过特定的损失函数限制DNN的极度非线性和高复杂度造成的影响

      (虽然RLN表现垫底)

我们直接跳到最重要的(不是)准确度


我不知道是我瞎了还是图上没有把LightGBM表示出来,但是lgb的准确度应该是最高的。

横轴训练时间,竖轴准确度,圆圈的半径代表标准差。前三名都是梯度提升树的不同实现。

那未来的趋势以及改进方向有哪些,作者分享了一些观点,

  • 模型魔改有一定优势,应该是引入了有效的先验

  • 正则化的重要性

  • 数据增强

    如果我们拥有数据应该是怎么样的概念,这个还是很值得一试的

  • 模型的可解释性,获取反馈
    那未来的趋势以及改进方向有哪些,作者分享了一些观点,

  • 模型魔改有一定优势,应该是引入了有效的先验

  • 正则化的重要性

  • 数据增强

    如果我们拥有数据应该是怎么样的概念,这个还是很值得一试的

  • 模型的可解释性,获取反馈

    SHAP- values,不像GBM只能给出特征重要性的绝对值,还能给出各个特征对模型输出的影响方向,还能对单个样本进行解释。

  • 自监督以及迁移学习,参见上面第二条,缺失或者不规则的空间依赖性。不像图片,不管哪个数据集,基础依赖都是一些基本的几何图形。

    但是另一方面,想搞出一个模型,对着随便一张缺漏的表,都能学得有模有样也不太现实,所以我觉得如果能有巨头能分享一些维度比较高,数量又足够庞大的表格数据,挑选出类似特征进行迁移学习,也许是一个可以考虑的方向吧。


    SHAP Values,不像GBM只能给出特征重要性的绝对值,还能给出各个特征对模型输出的影响方向,还能对单个样本进行解释。

  • 自监督以及迁移学习,参见上面第二条,缺失或者不规则的空间依赖性。不像图片,不管哪个数据集,基础依赖关系表示的都是一些基本的几何图形。

    但是另一方面,想搞出一个模型,对着随便一张缺漏的表,都能学得有模有样也不太现实,所以我觉得如果能找到一个维度比较高,数量又足够庞大的表格数据,挑选出和目标数据集类似特征进行迁移学习,也许是一个可以考虑的方向吧。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容