数据标注

背景

• 机器学习的学习方式包括:监督学习、无监督学习

• 数据分为两种类型:被标注or未被标注

• 其中监督学习需要经过标注的数据作为先验经验,即算法同事使用被标注的数据去训练模型

• 跟成熟的传统互联网领域不同,目前是AI早期阶段,在某些角度上,数据的重要性甚至超过了技术架构/算法,或常规的产品体验

流程

• 数据标注

○ 明确标注任务的目的,根据任务目的设立标签类别和维度

○ 标签设计原则:独立性、全面性

○ 标签颗粒度:颗粒度↑,独立性↓,全面性↑;颗粒度↓,独立性↑,全面性↓

• 模型训练

由算法同事跟进,但产品可依据需求,向算法同事提出需要注意的方面,避免无目的性、无针对性、无紧急程度的工作

• 模型测试

由测试同事/算法同事将未被训练过的数据在新的模型下做测试。

测试同事需要将测试的结果完善地反馈给算法同事,算法同事才能找准模型效果欠缺的原因。同时,测试同事将本次模型的指标结果反馈给产品,由产品评估是否满足上线需求。

一般来说模型测试至少需要关注两个指标:

1.精确率:识别为正确的样本数/识别出来的样本数

2.召回率:识别为正确的样本数/所有样本中正确的数

• 产品评估

在模型上线之前,产品需反复验证模型效果

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一、什么是数据标注 首先谈谈什么是数据标注。数据标注有许多类型,如分类、画框、注释、标记等等,我们会在下面详谈。要...
    跹尘阅读 21,510评论 0 9
  • 有一个非常形象的比喻——数据是21世纪的石油。 然而,大多数原始数据其实更像原油,并不能直接拿来就用。特别是在如火...
    AIworker阅读 15,036评论 0 8
  • 数据标注是人工智能进行模型训练必不可少的一环。这是将最原始的数据变成算法可用数据的过程:原始数据一般通过数据采集获...
    AIworker阅读 17,956评论 0 5
  • 他们再见面,是分开半年后。 她回来他坚持来接。未出站便看见了熟悉的身影,在最显眼的位置。他迎上来一手接过行李,另一...
    石小圆儿阅读 1,657评论 0 0
  • 一、Dubbo服务暴露前奏 读取解析Spring Bean,<dubbo:service ... />的解析利用的...
    洪阿南阅读 1,508评论 0 1