数据标注平台介绍

数据标注是人工智能进行模型训练必不可少的一环。这是将最原始的数据变成算法可用数据的过程:原始数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里进行调用。

上述概念阐释的背后实际上潜藏着一个正在茁壮成长的商业机会,尤其随着AI行业的发展,优质数据甚至可能是公司发展的壁垒。

按照人员规模,现在的数据标注行业分为小型工作室(20 人左右)、中型公司以及巨头企业。它们之间有各自的短板:专业的数据标注、采集小团队没有标注工具,开始逐渐向拥有更好技术资源的大平台靠拢 。与之形成对比的是,花费巨大资源打造专业全职标注团队的数据公司,却也受困于人力成本不得不把一些业务外包给小团队。

诸如巨头企业,虽然在努力搭建平台,但一方面更多是以消化内部需求为主,另一方面在人员培训和质量管控上,更多是流程化操作,缺乏合理的运营模式。

“没有一个标准。”基于上述的调研结果,在京东金融众智平台项目负责人看来,数据标注行业比较混乱。

在这种行业状况下,京东金融要做一个“中立”平台,成为需求方和最终标注团队之间的连接者:为小型工作室提供标注工具,同时也对需求方提供数据标注方案。

“京东众智”就是这样一个产物,它是专注于人工智能数据标注和采集的科技平台。上述负责人特意强调了“科技”二字,这意味着该平台并不是传统的众包模式,而是通过自身的科技能力,优化标注流程,提升标注效率,保证标注质量。

“大部分算法在拥有足够多的普通标注数据的情况下很容易将准确率提升到 95%,但从 95% 再去提升到 99% 甚至 99.9% 就需要大量高质量的标注数据。可以说,高质量的数据是制约模型和算法突破瓶颈的关键指标。”

京东众智的科技能力恰好表现在提高标注质量、提升标注速度、降低标注成本以及保证数据安全四个方面。

标注质量为先,而它又与标注人员息息相关。针对专业标注人才培养的流程,他们甚至要跟一些公司建立数据标注师认证标准,对不同人员评估其标注等级。 这符合京东众智“三擎互驱”的理念:让最专业的人用最专业的工具,在严谨的工作流程中完成数据的标注,并且由选拔出来的高水平专家进行审核,保证正确率。

准确率与客户的要求也有很大关系,比如众智平台的图片标注准确率在实测状态下能达到 99%,为了确保准确性,他们有 ACC 和抽检等四层过滤流程。

在保证数据标注质量的前提后就要比拼标注速度了。

当下 AI 解决方案落地速度普遍较慢。“传统的方式是有 AI 需求,然后需要先获取样本数据进行数据标注,标注之后再做模型训练。”但在数据标注之后如果不满意,还需要把数据返回重新优化,上述负责人表示,这样的方式导致从方案确认到落地可能需要 1 个月甚至时间更长。

众智平台的标注工具很大程度上提升了标注速度。“鲁班模板标注工具”可以组件化去配置。如果不同的公司对标注数据有不同需求,他们只需调整几个组件的配置就可以完成操作。

image

京东众智 Pre-AI 方案与传统方案的对比

更重要的是京东众智提出的“Pre-A.I”方案。此方案在标注过程中会不断添加智能元素,机器做预标注,标注人员只需在此基础上做细微的调整即可。

这些技术的应用在很大程度上节省了标注时间,而在 AI 市场竞争激烈的环境中,速度对创业公司而言尤为重要。“原来完整的标注流程如果是 1 个月的话,我们可能 3、4 天就可以交付了。”该负责人如此评估众智平台的标注效率。

数据标注速度提升的直接结果是标注成本自然会降低。不过,在行业一片混乱的数据运营模式下,数据安全是需求方最为关注的问题。

对于政府、银行等企事业单位而言,它们担心数据被转手,一般要求数据必需在自己的环境内进行标注。为此,他们提供了数据与流程分离方案。数据与流程分离方案针对客户自有标注平台和客户没有标注平台两种情况。

image

京东众智 DCS 方案流程

对那些数据标注需求比较大的大公司,众智平台可以打通京东金融和客户两者的标注平台,同时为标注流程有严格的质量把控。需要注意的是,标注环境实际上还是在客户环境下。对于没有标注平台的客户,京东金融提供了一套名为“众智星”的标注系统,它可以让数据不出客户环境就能完成数据标注。

据负责人介绍,该平台已于去年 8 月正式上线。目前平台上数据标注注册人员在 3 万以上,而数据采集的注册人员更是超过了 10 万人。

“京东众智旨在为 AI 行业提供最优质的基础数据,希望在不久的将来,国内大部分的 AI 公司都可以使用我们提供的高质量标注数据训练出更优质的模型和算法。这些模型和算法不仅要服务国内的用户,更要把中国的 AI 能力服务于全世界。为全球的人工智能行业助力是我们的初心。”负责人如是说。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容