如何有效提升AI模型的数据质量

maxime-valcarce-mAj8xn5zXsk-unsplash.jpg

<p align="center">Photo by Maxime VALCARCE on Unsplash</p>

我们不缺数据

以大家熟悉的银行举例,《2019年支付体系运行总体情况》显示,2019年全国共开立银行账户[1]113.52亿户,同比增长12.07%。中国人民银行支付系统[2]共处理支付业务5685.12亿笔,金额6902.22万亿元。这些交易,每笔都需要被存储,数据规模可以想象。

除了数据规模巨大,金融机构数据准确度高。这不难想象,金融机构在其核心系统上投入巨大。金融从业人员大概都知道,如果是人为原因导致客户的资金出错,是有直接被开除的风险。全世界各国金融监管机构都有具体法律条款、制度规范,约束账户类数据的准确性。

金融机构更是最愿意尝试AI技术、实现开源节流的行业。数据显示,其应用AI技术已初见成效。以中国一家股份制商业银行为例,通过使用聊天机器人替代传统坐席,月均接待用户进线量350万次,每年直接节约人力成本超过人民币2000万元。公平的说,金融机构确实在AI能力应用上,摘到了低垂的果实。媒体上“人工智能将在各行各业逐步替代人工”的报道,也经常成为头条。但真的是这样吗?

我们缺的是高质量的数据

AI行业大量的研究聚焦到算法层面,企业对数据质量的关注明显是不够的。但只有高质量的数据,才能使算法在实际场景中见效。对数据质量的持续优化,也能解决人工标注出现的错误。

但在实际工作中,要想提升训练模型数据的质量,我们面临有很多挑战,主要表现在评价数据质量的两个维度上:正确性连惯性。前者,是要确定数据是正确的。这在传统账户体系上,是显而易见的。如基于NLP的语义理解,正确大概可以被解释为:没有错别字、文字表达的意图明确、用于训练机器人的不同FAQ语料之间没有重复、相似意图等。后者,即:连贯性,要求不同人对同一事物的看法是一致的。考虑到个体认知的差异化,这点也很难。

我们数据质量到底有多好

为量化数据质量,我们用Thomas C. Redman博士提出的一个简单、清晰的公式“Friday Afternoon Measurement” (FAM)来计算数据质量评分[3]。对我们上文提到的文本机器人,计算该指标的基本步骤如下:

  1. 首先,我们选定了衡量语料质量的6个指标,如下表所示:

    指标名称 指标定义
    问答对合格率 问答对中没有错别字、符号、缩写,句子的长度符合具体业务的要求,合格率越高越好
    标问意图清晰度 意图包含明确的实体、属性,能清楚的表达具体的含义,没有歧义,清晰度越高越好
    标问独立度 重复知识的占比,重复度越低越好
    扩写匹配准确率 扩写问和标准问匹配的正确率,越高越好
    标问的扩写比 扩展问和标准问的比例,一般在20-200之间为合格
    交互优化率 具有交互的问答对占所有问答对的比例,一般在20%为合格
  2. 其次,我们选取了2019年12月的样本语料,共计21,000条。

  3. 接着,我们对每条语料打分,6个指标都合格为6分,所有指标都不合格为0分。

  4. 最后,我们用
    Std_Xi = ((Xi - Min(Xi))/(Max(Xi) - Min(Xi)))*100

将每条语料的分值标准化到【0-100】的区间内,画出样本语料的治理评分的分布图。

data_score_before.jpg

<p align="center">Initial Data Quality Assessment</p>

我们的数据显示,仅有25%的的数据质量勉强达到60分以上的水平,不足0.14%的数据,质量达到了90分。根据Tadhg Nagle,Thomas C. Redman和David Sammon在[4]一文中统计的结果,仅有3%的公司数据质量基本合格。大概率我们是不在这3%之中的。那么问题来了,如何提升数据质量?

构建"机器+人"的合作模式

解决方案

之前我们介绍了基于FAM公式下的数据质量评价体系,它扮演着类似审计的角色,成为我们衡量的基准。下面就引入我们完整的治理解决方案,其由三个组件构成,分别是服务前台治理中台管理后台。整体结构如下图所示。

  1. 服务前台,关注用户体验优化,通过制定一系列规范,减少人为操作的个体差异性。
  2. 治理中台,负责NLP算法的研发,为AI训练师提供知识运营辅助工具,在兼顾语料人性化的同时,确保语义理解维度的标准化。
  3. 管理后台,负责制定标准化治理流程、数据监控体系和算法优化方向。并和前台、中台形成管理闭环。
data_quality_procedure.jpg

<p align="center">The Procedure For Data Quality Enhancement</p>

我们知道,更多治理细节没有在图示中显示,我们欢迎读者对感兴趣的部分留言,我们也会及时回复。

算法平台介绍

根据之前的6个衡量指标,我们采用了如下一系列算法优化数据质量。这些算法在实际运用中,获得了不错的结果。

data_correction.jpg

<p align="center">NLP toolbox For Data Quality Enhancement</p>

通过治理后,数据质量评分也得到了显著的改善。超过97%的数据质量达标,更有22%的数据质量达到了90分。

data_score_after.jpg

<p align="center">Data Quality Assessment Revised</p>

财务价值

通过建立完整的知识治理闭环,项目成功节约运营成本人民币320万元。除此之外,还有一系列核心指标得到显著改善,包括:

  1. 知识质量提升,从之前25%的合格率(即:达到60分)提升到了97%的合格率。
  2. 知识优化效率,从人均80条/每天,提升了45%,到116条/每天的处理能力,在我们的业务场景下,成功解决了8个全职的AI训练师人力。
  3. 客户服务满意度,用NPS(Net Promoter Score)来衡量,也从35%提升到了43%。
data_quality_improve.jpg

<p align="center">Data Quality ROI </p>

下一步是什么

我们从有限的经验理解到,一个企业拥抱AI、赋能业务场景通常会选择以专家、领导驱动的方式推动项目落地。这样做的好处显而易见:决策流程短、见效快,对创新风险有人能承担责任。最后一点在一些大型企业中尤为重要。但这样的方式,也有其不足的地方:

  1. 无法充分将AI项目迅速推广,形成规模效益。
  2. 需要转型为数据驱动型决策机制、用数据判断、用工具优化。

因此,我们的决策者除了要聆听AI专家的专业意见外,也要不断思考和优化支持数据化经营的组织架构。往往这才是一个企业在AI实践中成败的关键。我们在知识治理的尝试,就是建立类似卫星城的组织架构,让创新技术迅速在企业不同业务条线得到充分的推广和实践。而更多的实践和场景,又为技术迭代提供的最佳的土壤。

我们都说,Machine vs. Human?你误会了,其实Love & Peace


  1. 银行账户指人民币银行结算账户

  2. 包含大额实时支付系统、小额批量支付系统、网上支付跨行清算系统、同城清算系统、境内外币支付系统、银行业金融机构行内支付系统、银行卡跨行支付系统、城市商业银行汇票处理系统和支付清算系统、农信银支付清算系统、人民币跨境支付系统、网联清算系统

  3. https://hbr.org/2016/07/assess-whether-you-have-a-data-quality-problem

  4. https://hbr.org/2017/09/only-3-of-companies-data-meets-basic-quality-standards?autocomplete=true

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容