<p align="center">Photo by Maxime VALCARCE on Unsplash</p>
我们不缺数据
以大家熟悉的银行举例,《2019年支付体系运行总体情况》显示,2019年全国共开立银行账户[1]113.52亿户,同比增长12.07%。中国人民银行支付系统[2]共处理支付业务5685.12亿笔,金额6902.22万亿元。这些交易,每笔都需要被存储,数据规模可以想象。
除了数据规模巨大,金融机构数据准确度高。这不难想象,金融机构在其核心系统上投入巨大。金融从业人员大概都知道,如果是人为原因导致客户的资金出错,是有直接被开除的风险。全世界各国金融监管机构都有具体法律条款、制度规范,约束账户类数据的准确性。
金融机构更是最愿意尝试AI技术、实现开源节流的行业。数据显示,其应用AI技术已初见成效。以中国一家股份制商业银行为例,通过使用聊天机器人替代传统坐席,月均接待用户进线量350万次,每年直接节约人力成本超过人民币2000万元。公平的说,金融机构确实在AI能力应用上,摘到了低垂的果实
。媒体上“人工智能将在各行各业逐步替代人工”的报道,也经常成为头条。但真的是这样吗?
我们缺的是高质量的数据
AI行业大量的研究聚焦到算法层面,企业对数据质量的关注明显是不够的。但只有高质量的数据,才能使算法在实际场景中见效。对数据质量的持续优化,也能解决人工标注出现的错误。
但在实际工作中,要想提升训练模型数据的质量,我们面临有很多挑战,主要表现在评价数据质量的两个维度上:正确性
和连惯性
。前者,是要确定数据是正确的。这在传统账户体系上,是显而易见的。如基于NLP的语义理解,正确
大概可以被解释为:没有错别字、文字表达的意图明确、用于训练机器人的不同FAQ语料之间没有重复、相似意图等。后者,即:连贯
性,要求不同人对同一事物的看法是一致的。考虑到个体认知的差异化,这点也很难。
我们数据质量到底有多好
为量化数据质量,我们用Thomas C. Redman博士提出的一个简单、清晰的公式“Friday Afternoon Measurement” (FAM)来计算数据质量评分[3]。对我们上文提到的文本机器人,计算该指标的基本步骤如下:
-
首先,我们选定了衡量语料质量的6个指标,如下表所示:
指标名称 指标定义 问答对合格率 问答对中没有错别字、符号、缩写,句子的长度符合具体业务的要求,合格率越高越好 标问意图清晰度 意图包含明确的实体、属性,能清楚的表达具体的含义,没有歧义,清晰度越高越好 标问独立度 重复知识的占比,重复度越低越好 扩写匹配准确率 扩写问和标准问匹配的正确率,越高越好 标问的扩写比 扩展问和标准问的比例,一般在20-200之间为合格 交互优化率 具有交互的问答对占所有问答对的比例,一般在20%为合格 其次,我们选取了2019年12月的样本语料,共计21,000条。
接着,我们对每条语料打分,6个指标都合格为6分,所有指标都不合格为0分。
最后,我们用
将每条语料的分值标准化到【0-100】的区间内,画出样本语料的治理评分的分布图。
<p align="center">Initial Data Quality Assessment</p>
我们的数据显示,仅有25%的的数据质量勉强达到60分以上的水平,不足0.14%的数据,质量达到了90分。根据Tadhg Nagle,Thomas C. Redman和David Sammon在[4]一文中统计的结果,仅有3%的公司数据质量基本合格。大概率我们是不在这3%之中的。那么问题来了,如何提升数据质量?
构建"机器+人"的合作模式
解决方案
之前我们介绍了基于FAM公式下的数据质量评价体系,它扮演着类似审计的角色,成为我们衡量的基准。下面就引入我们完整的治理解决方案,其由三个组件构成,分别是服务前台
、治理中台
和管理后台
。整体结构如下图所示。
- 服务前台,关注用户体验优化,通过制定一系列规范,减少人为操作的个体差异性。
- 治理中台,负责NLP算法的研发,为AI训练师提供知识运营辅助工具,在兼顾语料人性化的同时,确保语义理解维度的标准化。
- 管理后台,负责制定标准化治理流程、数据监控体系和算法优化方向。并和前台、中台形成管理闭环。
<p align="center">The Procedure For Data Quality Enhancement</p>
我们知道,更多治理细节没有在图示中显示,我们欢迎读者对感兴趣的部分留言,我们也会及时回复。
算法平台介绍
根据之前的6个衡量指标,我们采用了如下一系列算法优化数据质量。这些算法在实际运用中,获得了不错的结果。
<p align="center">NLP toolbox For Data Quality Enhancement</p>
通过治理后,数据质量评分也得到了显著的改善。超过97%的数据质量达标,更有22%的数据质量达到了90分。
<p align="center">Data Quality Assessment Revised</p>
财务价值
通过建立完整的知识治理闭环,项目成功节约运营成本人民币320万元。除此之外,还有一系列核心指标得到显著改善,包括:
- 知识质量提升,从之前25%的合格率(即:达到60分)提升到了97%的合格率。
- 知识优化效率,从人均80条/每天,提升了45%,到116条/每天的处理能力,在我们的业务场景下,成功解决了8个全职的AI训练师人力。
- 客户服务满意度,用NPS(Net Promoter Score)来衡量,也从35%提升到了43%。
<p align="center">Data Quality ROI </p>
下一步是什么
我们从有限的经验理解到,一个企业拥抱AI、赋能业务场景通常会选择以专家、领导驱动的方式推动项目落地。这样做的好处显而易见:决策流程短、见效快,对创新风险有人能承担责任。最后一点在一些大型企业中尤为重要。但这样的方式,也有其不足的地方:
- 无法充分将AI项目迅速推广,形成规模效益。
- 需要转型为数据驱动型决策机制、用数据判断、用工具优化。
因此,我们的决策者除了要聆听AI专家的专业意见外,也要不断思考和优化支持数据化经营的组织架构。往往这才是一个企业在AI实践中成败的关键。我们在知识治理的尝试,就是建立类似卫星城的组织架构,让创新技术迅速在企业不同业务条线得到充分的推广和实践。而更多的实践和场景,又为技术迭代提供的最佳的土壤。
我们都说,Machine vs. Human?你误会了,其实Love & Peace
-
银行账户指人民币银行结算账户 ↩
-
包含大额实时支付系统、小额批量支付系统、网上支付跨行清算系统、同城清算系统、境内外币支付系统、银行业金融机构行内支付系统、银行卡跨行支付系统、城市商业银行汇票处理系统和支付清算系统、农信银支付清算系统、人民币跨境支付系统、网联清算系统 ↩
-
https://hbr.org/2016/07/assess-whether-you-have-a-data-quality-problem ↩
-
https://hbr.org/2017/09/only-3-of-companies-data-meets-basic-quality-standards?autocomplete=true ↩