[endif]几十年来,商业分析师一直专精于决策管理;数据科学家历来也只钟情于对数据的处理。但随着预测模型规范的普及,数据科学家与商业分析师之间的界限也慢慢变得模糊了。预测模型规范既可以是写在纸头上的模型公式(以待后续编辑嵌入);也可以是能被直接导入到决策引擎中的电子表格。而后者也是PMML(预测模型标记语言)能成为决策引擎领域中标杆规范的原因之一。
事实上,数据科学家和商业分析师之间的差异并没有我们想象的那么大。我们有理由相信,两个职业都有必要去了解对方的领域。比如,对数据科学家而言,了解业务规则是有必要的;同时对商业分析师而言,也需要去掌握一些诸如数据分析和统计学的相关知识。如此一来,两者均能受益颇多。
在这篇文章中,我将分别从商业分析师和数据科学家的角度来阐明我上述的观点。
商业分析师
商业分析师的主要职能是分析和记录业务需求。然而,随着业务流程和业务规则相关技术的普及,商业分析师率先开始了转变: 他们开始承担着维护业务流程和业务规则的职责,而在此之前,这通常是信息技术部门的工作。这样的转变将带来巨大的收益。
继2007-2008经济危机后的几年,我们看到了由各行业高管推动的变革,传统企业向数据驱动型企业的转型。公司开展的商业分析项目的数量年年攀升,一直稳居企业各类项目的前五。当然,这催生了市场对数据科学家的需求,但同时也要求商业分析师拥有更强的数据分析能力。
具体来说,预测模型的应用,有如聚光灯下的空白,需求如此之大,却未被市场熟知。
不管是过去,现在还是未来,数据科学家开发的功能强大且复杂的预测模型,在各种决策应用上,都有着巨大的价值。我们一直缺少的是轻量级的预测模型。这个市场空白正逐渐由商业分析师们进行填补。
轻量级预测模型有如下特点:
[if !supportLists]l [endif]迅速搭建 - 在几小时或几天内即可完成;
[if !supportLists]l [endif]在缺乏大量数据的前提下,由业务知识和商业直觉进行辅助优化;
商业分析师虽然不是机器学习算法的专家,但可以根据他们对行业和商业问题的理解来进行模型变量的选择。由于缺少数据样本,他们建立的模型显然不如数据科学家开发的模型那样功能强大且精确,但却胜在快速有效。
目前,反欺诈领域已普遍应用了上述方式来建立预测模型。神经网络和其他机器学习算法固然精致且精准,但需要大量时间和数据来训练模型。我们都不希望看到这样一种情况:当您希望一种正在迅速扩散的新型欺诈交易立即停止时,数据科学家们却正在重新训练新的机器学习模型。在缺少数据的情况下,最佳方案是赋能于商业分析师,让其在模型中根据业务经验添加业务规则,当然因为无法完全了解当前欺诈交易的行为模式,此时如果有一定的机器学习能力进行辅助,将会让上述反欺诈模型变得更加数据驱动且能迅速生效。
数据科学家
数据科学家虽然有非常专业的方法来对数据进行分析处理,但却缺少关键的一步:对数据模型的性能进行测试和验证。当然,可以根据预留的数据进行模型测试。但是脱离实际业务场景,仅仅验证模型本身是没有太大意义的。会出现如下几点问题:
首先是可操作性的问题。实际场景中,需要根据实际业务数据而不是处理后的数据对模型进行测试。因此,您需要将数据模型转换为可执行的模型。
其次是当业务模型(评分卡模型)返回一个评分分值时,虽然在其本身模型中是有意义的,但在实际业务场景中,还需要确定一个阈值(确定通过某个分数的申请),并且有时还需要根据实际情况将这些交易评分分段处理,以确定针对不同分数段的申请者应用相应的策略。
最后,将来还可能会有越来越多的决策逻辑发挥作用。比如在模型之前进行评估的相关业务规则 (如资格预审规则),又比如紧接模型之后被执行的业务规则 (如评级规则)。只有对这些业务逻辑进行全面的考虑,才能更准确的评估模型的性能。
我们现在看到的情况是,数据科学家们投入时间和精力构建的模型并不总能被部署。因为,没有人能够评估和验证模型将对整个决策战略带来的提升与优化。
因此,我们可以发现数据科学家们正逐渐参与到业务规则的编写过程中,或者说和商业分析师(了解数据分析)间的协作正变的越来越紧密。
E�M�N��*?u����|T���