
深度神经网络已经是横行于视觉以及自然语言处理领域,但是为什么在表格数据上却表现平平呢,
这篇论文——
啊 摘要的第一个单词就看不懂,Heterogeneous 异质性。
说白了就是不一样,用在表格上指的就是数据类型是不一样的,比如性别和年龄,就是完全不同的信息,

因为不然的话把一张图片用二维数据表式也是一张表格,所以这篇论文着重讨论的是深度学习在异构表格数据上的痛点。
- Inappropriate Training Data: missing values, outliers,
- Missing or Irregular Spatial Dependencies
- Extensive Preprocessing
- Model Sensitivity
作者针对从深度神经网络的角度出发列出了四个难点,看到这就不难理解,为什么梯度提升树树模型还是要比深度神经网络更适合处理表格数据,因为这里的很多点,比如缺失值,离群值,以及复杂的数据预处理,GBM都还是都比较容易拿捏。
而很不巧,深度神经网络十分强大的表征能力,却因为表格数据缺失了规律性的空间依赖关系而受到了很大的限制。(自信监督)
这也是为什么迁移学习难以在表格数据上奏效的原因。图片无论是来自哪个数据集,基础的特征都是一些弧形直线等几何图形,而表格数据确是天差地别了。
接下来就是各个模型。

- single-dimensional encoding:
- 确定性地deterministic对每一列进行编码
- multi-dimensional encoding:
- 用模型自动对整个(也可以是局部?)输入向量编码
- 混合模型
- 完全可微分
- 可进行端对端训练
- 局部可微分
- 比如神经网络和梯度提升树结合
- 完全可微分
- 基于Transformer的模型
- 对,又是那个无处不在的Transformer
- 正则化模型
-
通过特定的损失函数限制DNN的极度非线性和高复杂度造成的影响
(虽然RLN表现垫底)
-
我们直接跳到最重要的(不是)准确度

横轴训练时间,竖轴准确度,圆圈的半径代表标准差。前三名都是梯度提升树的不同实现。
那未来的趋势以及改进方向有哪些,作者分享了一些观点,
模型魔改有一定优势,应该是引入了有效的先验
正则化的重要性
-
数据增强
如果我们拥有数据应该是怎么样的概念,这个还是很值得一试的
模型的可解释性,获取反馈
那未来的趋势以及改进方向有哪些,作者分享了一些观点,模型魔改有一定优势,应该是引入了有效的先验
正则化的重要性
-
数据增强
如果我们拥有数据应该是怎么样的概念,这个还是很值得一试的
-
模型的可解释性,获取反馈
SHAP- values,不像GBM只能给出特征重要性的绝对值,还能给出各个特征对模型输出的影响方向,还能对单个样本进行解释。
-
自监督以及迁移学习,参见上面第二条,缺失或者不规则的空间依赖性。不像图片,不管哪个数据集,基础依赖都是一些基本的几何图形。
但是另一方面,想搞出一个模型,对着随便一张缺漏的表,都能学得有模有样也不太现实,所以我觉得如果能有巨头能分享一些维度比较高,数量又足够庞大的表格数据,挑选出类似特征进行迁移学习,也许是一个可以考虑的方向吧。
SHAP Values,不像GBM只能给出特征重要性的绝对值,还能给出各个特征对模型输出的影响方向,还能对单个样本进行解释。
-
自监督以及迁移学习,参见上面第二条,缺失或者不规则的空间依赖性。不像图片,不管哪个数据集,基础依赖关系表示的都是一些基本的几何图形。
但是另一方面,想搞出一个模型,对着随便一张缺漏的表,都能学得有模有样也不太现实,所以我觉得如果能找到一个维度比较高,数量又足够庞大的表格数据,挑选出和目标数据集类似特征进行迁移学习,也许是一个可以考虑的方向吧。
