这是一篇带有学习意味的分享,笔者想搞清楚为什么数据在计算机科学界逐步被重视,以及数据集与其衍生的相关产品在商业化之前经历了哪些始末。
以下的资料大多来源于公开分享、行业分析或产品官网,引用汇总于文末Reference。
01.李飞飞和她的ImageNet
开始分享之前,还是先讲一段故事。这个故事的主人公叫李飞飞。
早在十几年前,计算机科学界的主流关注点还在于模型,大家都在不遗余力地研究同一个概念:研发出一个无论数据质量如何都能做出更好决策的算法。
这体现在手动编码的机器学习,或用数学的方法去解决通用难题等。
十年前的计算机物体识别,还是抓取特征,然后给出结果。但这样弊端很多,比如针对同一物体的多种姿态和角度,计算机抽象出来的模型,经常会出现认错的情况。训练数据的单一性,成为计算机视觉领域发展的局限。
2006年,还是美国伊利诺伊大学香槟分校的计算机科学教授的李飞飞,意识到了这种方式的局限性:如果供算法学习的数据无法反映真实世界,即便是最好的算法也不会具备良好的效果。
对此,她有一段很精彩的分享。这个分享中,她主要回答了两个问题。
以下观点源于李飞飞博士的公开分享,内容为笔者提炼而成。
1、什么是人工智能的基础?
“vision is a cornerstone of intelligence” ,李飞飞博士如是说。
安德鲁·帕克在2003年的著作《in the blink of an eye》中分享了一段关于寒武纪大爆发的历史,其中有个深刻人心的观点:"The Cambrian Explosion is triggered by the sudden evolution of vision, which set off an evolutionary arms race where animals either evolved or died.”
“寒武纪大爆发是由视觉的突然进化引发的,这引发了一场进化军备竞赛。动物要么进化,要么死亡。”
也就是,从某种角度而言,人类的大规模发展都源自于视觉的进化,人工智能发展历程也侧面印证了这个观点。
2、为什么不能忽视真实数据对于算法研发的重要性?
理论的、手动编码的数据,就像火炬投射的影子一样,始终是这个世界的agent。被动感知就像柏拉图寓言中洞穴里的囚徒,它看到的世界可能只是一个影子。而想要成为觉醒者,就要走出洞穴,迎接真实的视觉体验。
但,反映真实世界的数据,要怎么归类?
一个叫 WordNet 的项目,出现在李飞飞的视野里。
WordNet是根据词汇分类的方式,建立起来的英语体系结构,每个单词会按照和其他单词的关系来显示,整个项目涵盖了世界上大量物体的单词。在 2006 年会见了 WordNet 的研究者 Christiane Fellbaum 教授之后,李飞飞有了答案:她要模仿 WordNet 的方式,建立起一个大的数据集,为每个单词提供示例的图片。
李飞飞的第一个想法就是以10美元每小时的价钱雇佣本科生,让他们以人工的方式寻找照片并添加进数据集。但她很快发现,按照这种收集照片的速度,大约需要90年才能完成。
在停止让本科生收集照片后,李飞飞和研究团队重新回到算法上。如果计算机视觉算法能从网络上选择照片,然后只需人工审核准确性呢?但认真思考几个月后,团队人员得出结论:这项技术同样不可行,因为未来算法会存在局限性,只能达到完成数据集时的识别能力。人工收集照片太耗时,算法又存在缺点,而且雪上加霜的是,当时研究团队已经没有资金了。
就在踌躇之际,事情因为一个众包平台有了转机。
当时亚马逊的 Mechanical Turk 网站,可以雇佣世界各地的人用电脑远程完成一些任务,而且费用也很低廉。这也许就是标注数据众包的前身。
但使用 Mechanical Turk 的服务也面临不少困难,比如,每张照片需要找几个人过目呢?确定一张猫咪的照片可能两个人就够了,但是确定一张哈士奇狗崽的照片可能就需要经过十轮的反复验证。还有如果在网站上雇佣的人想偷懒怎么办?
李飞飞的团队最后针对雇佣人员的工作开发了一款统计模型,用以确保数据集只包含正确的照片。最终,这个项目最终花费了两年半的时间波折地完成了。发布的ImageNet数据集中包含320 万张标记的照片,分为 5247 个种类,划分为 12 个子树,有“哺乳动物”、“机车”和“家具”等种类,也有如“爱”这类抽象词汇的标签。
作为新生事物,ImageNet 一开始还没有得到重视。而这一现状,随着 ImageNet 衍生的挑战比赛,被彻底地扭转了。
02.现代深度学习时代到来
深度学习是机器学习(ML) 的子集,它基于人工神经网络(指由算法建模而成,能够像人的大脑一样工作)学习大量数据。
在2006年之前,深度学习的现状可以借用开尔文男爵的那句名言来概括:深度学习的大厦已经基本建成了,只不过在阳光灿烂的天空下,漂浮着三朵小乌云。这三朵小乌云就是算法、算力和数据。
但2006年发生的三件事改变了这一点:
辛顿和学生Salakhutdinov在Science上发表了论文Reducing the dimensionality of data with neural networks,第一次提出了有效解决梯度消失问题的解决方案,在算法层面迈出了一大步。
英伟达发布Tesla架构的新款GPU,并随之推出CUDA平台,开发者利用GPU来训练深度神经网络的难度大幅度降低,望而生畏算力门槛被砍掉了一大截。
斯坦福大学的李飞飞意识到,如果数据规模难以还原现实世界的原貌,那么再好的算法也很难通过训练达到“模拟人脑”的效果。于是,她开始着手搭建ImageNet数据集。
*资料来源:https://mp.weixin.qq.com/s/RICkMxaJLEl2e2Kzpq6KiA*
接着,2009 年李飞飞教授的实验室发布 ImageNet 数据集。次年,ImageNet 与 PASAL合作 大规模视觉识别挑战赛(ILSVRC),把计算机视觉逐步推向了高潮,同时也侧面开启了现代深度学习时代。
这三件事情的影响用后来业界的评论来总结,那就是:这三件事的发生吹散了深度学习上空的三朵乌云,并在2012年的ImageNet挑战赛上交汇,彻底改写了高科技产业乃至整个人类社会的命运。
ImageNet数据集在线一览(2011版)
在这个比赛上,参赛者要用 ImageNet 数据集作为标准,来评估它们在大规模物体检测和图像分类上的性能
由于笔者前司也是做视觉起家的,私心地提及一下AI视觉厂商商汤和ImagNet的藕断丝连之处:
2014年3月,汤晓鸥团队发布的人脸识别算法,在LFW数据库上准确率达98.52%,具备了真正意义的人眼识别能力。创下这一划时代纪录的汤晓鸥成了超级大IP,估值万亿都有人信。很快就有投资人捧着数千万美金,找上了汤教授团队。数千万美金的大手笔,不能说是“天使轮”,而是“天神下凡”。
有了“钞能力”加持,“技术力”很快就更上一层楼。仅仅过去数月,汤晓鸥团队就把人脸识别准确率提升至99.55%。不要小看这1个点的提升,1个点的差距足以决定人类识别技术大规模应用的市场前景。
这个市场就是安防。其实,即便是2014年人工智能的风口最强劲时,市场应用前景也让人疑惑。小众应用的市场空间有限,不值得“烧钱”。大范围应用需要很高级的算法,弄不好就会烧成个无底洞。
因此,中国的人工智能赛道里,视觉AI是无可争议的主赛道。领跑赛道的“人工智能四小龙”商汤、云从、依图、旷视,除依图偏硬件外,都是视觉AI起家,也都盯上了中国异常庞大的安防应用市场。
2015年12月,被誉为“计算机视觉奥林匹克”的ImageNet结果揭晓,商汤成为首个在此项赛事中夺魁的中国企业。凭借这一成就,商汤不仅成为当时已经崭露头角的“四小龙”之首,还获得了公司成立以来的第一张大订单——中移实名制认证系统的技术合作,提供人脸识别技术。
商汤由此进入了高光期。
*资料来源:https://mp.weixin.qq.com/s/uUNPLtFSoqZjwA-l-RA_qw*
回到数据集的话题。总而言之,ImageNet 真正改变了人工智能领域对「数据」的认知,它让人们真正意识到数据集在 AI 研究中的核心地位,它和算法同等重要。
03.数据标注及其衍生产业的发展
所以,如果现在有人问我,数据标注产业是怎么发展起来的?
我也许会回答:没有ImageNet,人们对数据的重视就没有那么快到来;而没有对数据的重视,机器学习的突破仍需历尽波折。反之,机器学习、人工智能技术的兴起带动了数据标注产业的发展,需求极大促进了供给。
以下是笔者总结的产业发展时间线和阶段特点:
早期阶段(2010年前):
在人工智能和机器学习领域,特别是深度学习算法崛起之前,对大规模标注数据的需求相对较小。
许多早期的机器学习应用主要依赖于手工特征工程和规则,而不需要大规模标注数据。
深度学习崛起(2010年至2015年):
随着深度学习方法的兴起,对于大规模标注数据的需求迅速增加。深度学习算法对大量标注数据的依赖使得其在计算机视觉、自然语言处理等领域的性能大幅提升。
这一时期,标注数据的需求逐渐引起了人们对数据标注产业的关注。
初期数据标注公司(2015年至2018年):
随着深度学习的流行,越来越多的公司开始专注于提供高质量的标注数据服务。这些公司致力于满足计算机视觉、语音识别等领域的标注需求。
数据标注公司开始提供图像标注、文本标注、视频标注等多种服务。
自动驾驶技术的崛起(2016年至今):
自动驾驶技术的崛起成为数据标注产业的一个主要驱动力。为了训练和测试自动驾驶系统,大量的高质量标注数据是必不可少的。
数据标注公司开始专注于为自动驾驶行业提供传感器数据的标注服务,如激光雷达、摄像头等。
平台化和工具发展(2018年至今):
随着市场需求的增加,数据标注公司逐渐发展为提供全面的数据标注平台和工具,以满足不同行业和项目的需求。
数据标注工具变得更加智能和高效,采用自动化技术(如半自动标注和预测标注)来提高效率。
行业合规和质量控制(2020年至今):
随着数据标注在关键领域的应用增加,行业对于标注数据的合规性和质量控制提出更高要求。一些公司开始强调合规标注和质量控制流程。
数据标注公司不仅提供标注服务,还提供数据集管理、审核和协作工具,以确保客户获得高质量的训练数据。
从中我们可以看出**,**由于市场对于数据的需求日益增长,除了数据标注的需求之外,数据挖掘、数据集管理与协作的需求也随之衍生。
2022年底,Grand View Research的报告显示, **2022 年全球数据收集和标注市场规模为 22.2 亿美元,预计从 2023 年到2030 年将以 28.9% 的复合年增长率增长。**2022 年全球数据标注解决方案和服务市场规模为 118.3 亿美元,预计从2023 年到 2030 年的复合年增长率为 21.3%。目前主要的公司包括:Scale AI、Appen、CloudFactory、LightTag、Alegion等。
2023年4月18日,胡润研究院发布《2023年全球独角兽榜》,列出了全球成立于2000年之后、市值10亿美金以上的非上市公司。这些公司以潜力无限且难以复制闻名,向来备受投资界关注。
其中,最受瞩目的是美籍华裔Alexandr Wang 创办的公司Scale AI,以505亿人民币的股值入选,排名101名。这家成立于2016年的公司,短短数年就发展成硅谷最大的AI人工智能公司之一。其创始人Alexandr Wang也一跃成为亿万富豪,现年26岁的他被称为“下一个马斯克”。
下面笔者通过调研数据标注行业明星独角兽Scale AI ,总结其涉及的业务,希望以此窥探到一些行业发展的历程和新动向。
04.Scale AI:数据标注与MLOps的探索
业内认为,Scale AI 是观察 AI 行业机会的绝佳生态位,一旦行业有新动向都会体现在 Scale AI 的产品线中,且公开可见。因此,Scale AI 的动向是值得业内长期关注的。
Scale AI 是提供数据注释和标记服务起家的,至今,数据标注服务仍是其核心业务。数据标注位于模型开发的上游阶段,需要将未经处理的原始数据按照一定的标准进行标记和分类,以便机器学习算法和人工智能系统能够识别和理解。数据类型包括结构化数据和非结构化数据,前者具有明确的格式和组织,后者包括用户评论、网页内容、音频和视频文件、传感器数据等。
在数据标注之外,Scale AI也在切入 MLOps 和 LLM 领域,提供各类工具、平台和服务。这是因为Scale AI 认为,从传统软件到人工智能的转变是这个时代最重要的转变之一,而Scale AI的使命是在各个行业更快地实现这一目标。
因为这个使命,公司短短几年内布局多个行业领域。迄今为止,Scale AI主要有以下2条产品线:
资料来源:https://scale.com/
那么,其中有哪些产品服务于核心标注业务?针对不同领域的不同需求场景,Sclae AI分别发布了产品来满足?每个产品的核心功能和技术是什么?
来自机构海外独角兽的研究,很好地回答了以上大部分问题:
Scale AI的产品主要分成 4 大类:数据标注(Annotate)、管理和评估(Manage & Evaluate)、自动化(Automate)和合成(Generate)。
资料来源:https://mp.weixin.qq.com/s/T6hIWj595TwcuYXC9uxKjg
这些产品为Scale成功打开了局面,已渗透不同市场领域。目前客户包括自动驾驶领域、金融科技公司、政府、零售与电商、AR/VR、RLHF等。
但目前Sclae AI核心的盈利业务还是在标注服务,其他产品的商业化还待进一步探索。数据标注服务已公开的收费标准如下:
Consumption-base:起价+标注价(标注总数量每条标注价格)。*
Enterprise:依据具体的企业级项目的数据量及服务进行收费。
另,根据Grand View Research 2022年底的数据显示:
Scale AI的年收入估计为277.7M美元。
每位员工的估计收入为21万美元。
目前公司的估值为7.3B美元。
结合以上资料和行业见闻,目前具备落地条件的数据标注及其衍生的产品和服务,笔者认为主要可以分为以下几块:
1、针对数据需要标记和注释的需求:
售卖标注人力(自建标注基地或众包平台,为具备技术基础的客户提供人力和服务)
售卖标注工具(开发工具,为有意向构建标注团队的客户提供工具产品)
售卖定制的或通用的标注数据(结合已有的人力和工具优势,直接为客户提供labeled data set)
注,以对象作为分类标准,数据标注可以分为图像标注、语音标注、文本标注以及视频标注,不同分类将存在不同市场需求量。
2、针对数据需要被管理的需求:
售卖数据集管理工具(提供原始或真值数据管理、数据挖掘和可视化的服务,针对已有大量原始/真值数据储备的客户,希望从原先的数据储备中找数据以直接用于模型训练或送标)
3、针对相关算法和应用的需求:
售卖模型(基于标注行业的场景化需求,训练相应模型,为有意向构建标注团队或提升标注能力的客户提供自动化模型。但一般会搭配标注工具或其他产品售卖)
售卖算法和平台能力(基于GPTs等构建生成式应用,为客户提供定制、构建、测试和部署AI应用的服务,比如银行问答AI应用)
其中,数据集管理产品的新需求逐渐被提及,这在自动驾驶领域尤为明显。
现如今,自动驾驶工程已经被认可是一个解决数据分布“长尾问题”的任务,时而出现的corner case是对数据驱动的算法模型进行升级的动力来源之一,如图所示。
构成这个自动驾驶数据闭环的其中一环,就是对于数据的管理,包括自采集的原始数据、模型预标注的伪真值数据和人工标注的真值数据。当自动化程度越高,所需的数据存储量就越大,对于网络的传输、存储、脱敏、标签管理、二次挖掘(比如相似性分析、对象搜索等)等方面的挑战就越大。
笔者还认为,**对于自动驾驶行业,如何构建数据集管理能力、真正打通数据闭环,是无法绕开的命题。**随着自动驾驶行业的进一步发展,自动驾驶技术和解决方案类公司或早或晚会进入到思考该命题如何被真正解决的阶段。
这个命题可能涉及到:
1、统一标签体系的构建
2、存储数据湖的通用化设计(开源选型、数据表结构设计、存储稳定性和检索性能提升等)
3、检索能力的增强等等(StructureSearch、NaturalLanguageSearch、ObjectSearch or VisualSimilaritySearch等)
05.难以突破的Human-in-the-Loop与未来
AI产业逐步发展,当人们越来越清楚地意识到数据是AI研究的核心基础、是建立一个完整产品的基本构件时,一个难以突破的问题出现了:
在以模型为中心的AI开发中,数据集通常是固定的和给定的,重点是迭代模型结构或训练程序以提高性能。这推动了建模方面的大量研究进展,而现在在许多任务中,改进模型的增量收益正在减少。
Human-in-the-Loop下的模型改进,会要求越来越精确的数据,需要越来越多高质量人工的参与。比如一个场景训一个模型,给定固定场景的数据集,并通过人工降低这个数据集的无效标签比例。虽然从成本和速度的角度看,HITL最理想的情况是让算法来标记所有内容,但现状是它还难以胜任这个任务。
相关的探讨还在进行中,这个问题可能并非一时半会能够解决,但值得我们持续关注和思考。
这里推荐一篇文章《Advances, challenges and opportunities in creating data for trustworthy AI》,是斯坦福大学计算机科学系的梁伟欣、李飞飞等人在Nature Machine Intelligence杂志共同发表的,文章分析了在 AI 数据全流程的各个环节上保证数据质量的关键因素和方法,值得我们研读。
推荐阅读:
https://voxposer.github.io/voxposer.pdf (VoxPoser,既能理解自然语言指令,又无需预定义的运动原语或额外的数据和训练)
https://cloud.tencent.com/developer/article/2352593 (MimicGen系统,能够大量生成机器人训练数据)
https://www.nature.com/articles/s42256-022-00516-1.epdf?sharing_token=VPzI-KWAm8tLG_BiXJnV9tRgN0jAjWel9jnR3ZoTv0MRS1pu9dXg73FQ0NTrwhu7Hi_VBEr6peszIAFc6XO1tdlvV1lLJQtOvUFnSXpvW6_nu0Knc_dRekx6lyZNc6PcM1nslocIcut_qNW9OUg1IsbCfuL058R4MsYFqyzlb2E%3D(《Advances, challenges and opportunities in creating data for trustworthy AI》
Reference:
*https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures*
*http://image-net.org/about-publication*
*http://image-net.org/challenges/LSVRC/*
*https://zhuanlan.zhihu.com/p/32011260*
*https://mp.weixin.qq.com/s/RICkMxaJLEl2e2Kzpq6KiA*