概述

数据科学的通用全流程已成常识。但是在实际业务中，这些流程并不能保证建模能产出良好的结果。因为实际业务问题往往定义不清晰。业务运转的逻辑，建模需要的数据，实际可用的数据，均未明确。因此，实操中最重要的往往不是用什么算法，怎么进行特征工程处理。而是怎么进行问题定义、怎么进行问题拆解。上来就把数据往模型中一丢，往往会发现采用的数据集都是错的、label设计是错的、评价方案是错的。下面记录我个人对算法建模的理解。后续还会不断总结更新。

问题定义：

业务理解：深入理解业务整体运转的关键细节，形成业务架构图。要做到可以用最简单的语言跟任何人说清楚的程度。
类型识别：预测任务，还是推断任务。
- 预测型。需要使用具备因果关系的因子来进行预测。只能从因子入手。
- 推断型。可以使用结果数据反向推测。梳理特征时，可以从因子入手，也可以从结果入手。
必须想清楚到底想让模型学到什么。否则一定进入盲目寻找特征的处境。并且很容易出现训练数据与实际数据分布不一致，导致在训练集上学到的东西，实际情况根本适用。
样本定义。全集是什么，训练/验证/测试如何定义。样本的分布均衡性如何？
目标定义。
- 定义benchmark。使用什么数据集评价？用什么度量评价？
- 怎样设计label、loss，使得label反向传播的信息量更大？
- 怎样设计loss，使得模型优化的目标与业务目标完全match？
- 怎样设计样本权重，使得loss优化在重要的样本上？

问题拆解：

矛盾GAP法。业务核心矛盾是预期与现状的GAP。那么度量这个GAP的核心指标，就是我们要拆解的变量。如果是预测问题，那么只拆解因子。如果是推测问题，则还需要梳理结果，甚至采用生命周期法，去梳理该变量的全业务生命周期，找到在业务中留下的所有痕迹，以反向推测变量自身。
公式拆解法。某些变量在拆解的最初几步有明确的数学关系。那么可以直接采用公式拆解法。如利润=收入 - 成本
流程拆解法。如果某变量的产生是经历了多个流程环节衰减得到的，那么对问题按流程进行拆解，分环节进行因子梳理。最终的模型可以是多目标模型，或者多个子模型整合。
生命周期法。从业务过程中，某些业务实体历经的全流程去梳理实体的footprint。期望可以从这些与外部的交互结果中，反推实体内部的未知待建模变量。

设计模式

匹配: 模型的任务是为了预测两个主体之间是否匹配。如：点击/转化/留存实际是需求与供给的匹配。
推断：相关信息皆可使用。不论是因还是过，本质这个模型的任务就是猜。
召回：返回不确定个数的相关结果。
召回 + 排序：用召回解决排序量过大问题，然后用排序增强效果。
boosting: 多个模型合力解决一个问题。但每个模型只重点解决问题的某个方面。
级联法：多个模型串联解决同一个问题。比如，对于正样本只占万分之一的情况，如果要尽可能准确找加正样本，使用单个模型较为困难。可以使用多个模型串联。每个模型实际上需要的分辨率均不高。类比：使用鼠标在屏幕上准确地把一个很小的图像圈出来是困难的。但是可以先圈出一个大概的区域，然后把其它部分裁剪掉。然后把图片放大，再圈一次。一直重复，直到可以很轻松准确圈出相关样本为止。
参数法：一个模型的输出，是另一个模型的输入。通过改变一个模型的输出，进而改变下一个模型的行为。那么上一个模型就是下一个模型的controller。

深度学习常用构件

空间数据：CNN/U-net/ResNet
序列数据：Tranformer/RNN/GRU/LSTM
时间序列：Tranformer/MLP
文本序列：Tranformer/BERT
离散属性：树/FFM/FM/DCN
图数据：GCN
二部图数据：FM/GCN
降维/数据融合：自编码器
理解数据分布：自监督/对比学习
中间过程约束：设置辅助任务，或者对中间embeding设置loss、正则化。
添加物理规律约束：将微分方程计算过程整合到模型梯度计算网络中。

因子建模：

问题拆解帮我们确认了哪些因子对最终预测有重要的影响，这些因子怎么与可用的数据集进行对应？不存在完全的对应，应该如何去间接建模我们想要的因子？或者推动业务方去收集相应的关键数据？

因子匹配。
因子近似。
信号增强。多特征融合、区分度增强。
噪声去除。
构建子模型。在特征加工侧，引入专用模型，专门产出某一个因子。
新建收集。

模型适配：

数值编码。
标准化。
归一化。
对数变换。

结果分析

准确差：现有样本区分度不够，导致在这部分样本上模型较为困惑。也就是说，现有特征分辨率差，导致有相当部分被误判了。应该针对核心因子，进一步细化特征、交叉特征、引入分辨率/相关性更高的特征。
召回差：未召回样本缺乏判断的依据。也就是说，需要针对这部分样本去分析为什么会成为正样本，还有哪些因素我们没有考虑进来。

数据科学怎么进行建模？