如何运营一家数据标注公司(市场结构篇)

“由于上游客户的需求可能千变万化,同时客户的需求很大概率都是阶段性的,这就要求众包公司合作的大众志愿者首先自身得是稳定的。但是由于大众志愿者就是利用闲散时间进行工作的这种特性,长期稳定的大众志愿者几乎不太可能,这就要求数据标注众包公司必须拥有庞大的大众志愿者团队,形成一个体系。才能保证在发放任务的时候总是有充足的大众志愿者进行合作.....”


随着AI浪潮的斩头露角,数据标注行业也犹如雨后春笋般蓬勃的发展起来。

        本文就目前国内数据标注行业存在的几个阶段性结构特征进行展开,让更多想了解数据标注的AI公司、AI实验室、准备加入数据标注的朋友们,快速熟悉目前数据标注行业的现状和运营数据标注公司应该注意的若干问题。

数据标注市场目前有下面几种结构:

1. 众包结构

        顾名思义,就是把需要完成的任务分发给大众志愿者(也就是市场上说的兼职)。这其中就出现了众包公司。众包公司联系到需求数据标注的客户,和客户建立合作关系后,将客户需求传达给合作的大众志愿者,从而形成一个“需求公司——数据标注众包公司——多个大众志愿者”这样一个众包结构 。

        这种众包结构的优点就是可以组织起社会上的大众志愿者进行数据标注,而大众志愿者不用占用太多的公司资源,劳动力成本相对较低。对于数据标注众包公司费用支出的核心——人工来说,无疑是可以极大的减少公司的运营成本,从而使公司自身在面对需求数据标注的客户时的报价更具有竞争力。

        当然,众包结构的缺点和优点一样显而易见,甚至可以说它的缺点已经慢慢的大过了它的优点,为什么这么说呢?

        ◆ 需要拥有大量的志愿者基数 由于上游客户的需求可能千变万化,同时客户的需求很大概率都是阶段性的,这就要求众包公司合作的大众志愿者首先自身得是稳定的。但是由于大众志愿者就是利用闲散时间进行工作的这种特性,长期稳定的大众志愿者几乎不太可能,这就要求数据标注众包公司必须拥有庞大的大众志愿者团队,形成一个体系。才能保证在发放任务的时候总是有充足的大众志愿者进行合作。

        ◆ 沟通成本高昂 而当大众志愿者的数量能够满足任务要求时,我们又不得不面对另一个事实:数据标注众包公司在与需求公司洽谈合作时只能有针对性的进行数据标注类型的选择。如果在选择数据标注项目上普遍撒网,就会面对公司自身需要投入巨大的精力去培训那些不断更迭的大众志愿者。而很多时候公司在大众志愿者合作方面节约下来的成本,其实已经全部转嫁到了公司培训、纠错诸如此类的沟通环节。

        ◆ 数据保密困难 目前国内的AI公司,AI实验室还没有形成井喷之势。但就现阶段而言依然有众多AI公司,AI实验室在进行着高度重叠的产品研发。对于有标注需求的公司来说,如果被标注数据都是真金白银获取来的,那么倘若在众包环节众包公司处理不当,很有可能AI公司辛苦获取的数据就成了其他AI公司的嫁衣。

        ◆ 无法给予需求公司灵活的服务 因为大众志愿者拥有流动性的特点,一旦需求公司改变原有标注需求,数据标注众包公司是没有办法在较短的时间进行调整的。同时,数据标注众包公司的客户群体也相对单一,由于大众志愿者的群体特点,数据标注众包公司只能把更多精力放在需要大批量数据标注,同时标注规则相对简单的需求公司。但是AI的训练是一个阶段性的过程,基本上都是:小批量找特征训练——较小批量简单场景训练——较小批量复杂场景训练——大批量训练。在数据标注众包公司砍掉处在第一阶段的AI公司和AI实验室的时候,其实也就是砍掉了相当一部分潜在客户。

2. 工厂结构

        有了众包结构里的兼职架构,下面就着重介绍一下全职架构,也就是工厂结构。

        工厂结构相较于众包结构形式上要简单一些,省去了中间众包商这个环节,进而形成了一个“需求公司——数据工厂”这样的工厂结构。

        相较于数据众包公司,数据工厂的优点就是标注人员稳定,能做到需求方和数据标注方即时沟通,沟通成本大大降低。同时,由于数据是以一对一的形式进行传递的,也大大降低了数据被泄露的可能性。

        虽然工厂结构可以有效的规避很多众包结构中存在的种种问题,但是依旧有很多问题他是没办法解决的,那我们就看看有哪些问题工厂结构解决不了呢?

        ◆ 选择标注公司的困难 在市场上可能有成百上千个工厂结构的数据标注公司,但是有数据标注需求的公司应该如何选择呢?如果没有选择正确的标注公司,不仅得不到高质量的标注数据,更有可能因为数据大批量不合格而重复返工,进而耽误了原本项目的工期。而在这个AI公司百家争鸣的时代,时间才是最重要的,谁的产品最先出世,也就最有机会获得资本的垂青。但是有标注需求的公司如何在众生百态的标注市场中选择一个质量和效率双重过硬的公司其实是一件非常困难的事情。

        ◆ 工厂结构公司两极分化 因为各种各样的原因,工厂结构的公司两极化很明显:较大的可以达到上千人;而较小的,只有几个人。因为两级分化的原因,市场现在就会出现一个很有意思的现象:大的公司很少会去对接短期且数据量较少的项目,因为承接较少的数据量对于一个较大的工厂结构的标注公司来说很有可能都不够公司日常的管理运营成本;反之,小的标注公司可以承接短期数据量较少的项目,但是在大批量数据杀到的时候,又会显得捉襟见肘,难以承接。

        ◆ 人工成本风险较高 首先因为是全职,不论有没有任务,都涉及一个员工薪酬的发放。其次,需求方公司的需求有大概率是呈周期性的,就是有可能这周公司有项目做,下周可能就没有了。这就会映射出一个工厂结构的数据标注公司非常尴尬的处境:合同期限内需要完成的大项目可能需要大量人员进行参与。可是一旦合同结束了,公司却又没有找到后续能够进行人员分配的项目,这就会给数据标注公司的运营带来挑战。

3. 众包+工厂结构

        有了众包和工厂结构的总结,我们不难发现,他们各有各的优点,也各有各的缺点。这里提出的众包+工厂结构,其实就是将两者进行了优缺点的融合,扬长避短。

那么大家肯定会有疑问,怎么融合呢?如何才能将这两种结构很好的在实际操作中统一起来呢,欢迎大家持续关注微博,在后面的篇幅里,会有详细介绍。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容