一、简介
本书是由中国大数据应用联盟人工智能专家委员会主任刘鹏教授主编的一本系统学习数据标注技术的教材。本书使用浅显易懂的语言,系统地介绍了数据标注的基本概念、分类、流程、质量检验、管理和应用等。通过理论与实战相结合的方式,帮助读者由浅入深进行学习,从而真正掌握数据标注的核心技术、实施和管理方法。本书既可以作为培养应用型人才的课程教材,也适用于初学者,以及广大的数据标注行业从业者。数据标注行业迅速成长,目前正缺乏一本权威教材,希望本书能够填补这个空白。
二、序与前言的要点提炼
1. 数据人才缺口大
未来3~5年,国内需要180万名数据人才,但目前只有约30万人,有150万名之多的人才缺口。
未来5年,专职数据标注工程师的缺口将高达100万。而目前只有20多万专职人员,100多万的兼职人员。
2. 人才结构重心低
大数据学科实践性很强,该领域对位于金字塔塔尖经验丰富的数据科学家的需求相对有限,80%的人才需求反而是:
- 大数据底层设计
- 数据清洗
- 数据挖掘
- 大数据安全等
3. 院校专业培养刚起步
接受过系统培训的数据标注工程师少之又少。
近年来,高职、中职院校开始申报开设“大数据技术与应用”专业,本科院校开设“数据科学与大数据技术”专业。
4. 教育资源紧缺
- 缺“人”:懂大数据的老师少之又少
- 缺“机制”:院校尚未形成完善的大数据人才培养和课程体系
- 缺“机器”:需要为每位学生提供集群计算机
- 缺“材料”:院校没有海量数据,无法开展大数据教学实验
三、目录
第1章 数据标注概述………………………………………………………1
1.1 数据标注的起源与发展…………………………………………1
1.1.1 什么是数据标注 …………………………………………3
1.1.2 数据标注分类概述 ………………………………………4
1.1.3 数据标注流程概述 ………………………………………61.2 数据标注的应用场景……………………………………… 7
1.2.1 出行行业 …………………………………………………7
1.2.2 金融行业 …………………………………………………8
1.2.3 医疗行业 …………………………………………………8
1.2.4 家居行业 …………………………………………………8
1.2.5 安防行业 …………………………………………………9
1.2.6 公共服务 …………………………………………………9
1.2.7 电子商务 …………………………………………………101.3 有多少智能,就有多少人工……………………………………10
1.3.1 有监督的机器学习 ………………………………………10
1.3.2 最后一批人工智能的“老师” ……………………………111.4 数据越多,智能越好……………………………………………12
1.5 作业与练习………………………………………………………14
参考文献… ……………………………………………………………14
第2章 数据采集与清洗………………………………………16
2.1 标注对象…………………………………………………………16
2.1.1 主要的数据来源 …………………………………………16
2.1.2 常见的标注数据 …………………………………………172.2 数据采集………………………………………………………… 18
2.2.1 数据采集方法 …………………………………………… 18
2.2.2 数据采集流程 …………………………………………… 19
2.2.3 标注数据采集 …………………………………………… 202.3 数据清洗…………………………………………………………23
2.3.1 数据清洗方法 …………………………………………… 24
2.3.2 数据清洗流程 …………………………………………… 26
2.3.3 MapReduce 数据去重 …………………………………… 262.4 作业与练习………………………………………………………28
参考文献… ……………………………………………………………28
第3章 数据标注分类…………………………………………29
3.1 图像标注…………………………………………………………29
3.1.1 什么是图像标注 ………………………………………… 29
3.1.2 图像标注应用领域 ……………………………………… 303.2 语音标注…………………………………………………………35
3.2.1 什么是语音标注 ………………………………………… 35
3.2.2 客服录音数据标注规范 ………………………………… 353.3 文本标注…………………………………………………………38
3.3.1 什么是文本标注 ………………………………………… 38
3.3.2 文本标注应用领域 ……………………………………… 383.4 作业与练习……………………………………………………… 41
参考文献… ………………………………………………………………… 41
第4章 数据标注质量检验………………………………………………42
4.1 数据质量影响算法效果…………………………………………42
4.2 数据标注质量标准………………………………………………44
4.2.1 图像标注质量标准 ……………………………………… 44
4.2.2 语音标注质量标准 ……………………………………… 47
4.2.3 文本标注质量标准 ……………………………………… 484.3 数据标注质量检验方法…………………………………………48
4.3.1 实时检验 ………………………………………………… 48
4.3.2 全样检验 ………………………………………………… 50
4.3.3 抽样检验 ………………………………………………… 504.4 作业与练习………………………………………………………53
参考文献… …………………………………………………………………53
第5 章 数据标注管理…………………………………………………… 55
5.1 数据标注工厂设计………………………………………………55
5.2 数据标注管理架构………………………………………………59
5.3 数据安全管理与质量管理体系…………………………………60
5.3.1 数据存储安全管理要求 ………………………………… 60
5.3.2 工厂人员行为管理 ……………………………………… 61
5.3.3 溯源体系建设 …………………………………………… 61
5.3.4 质量管理体系建设 ……………………………………… 625.4 数据标注项目评估………………………………………………63
5.5 数据标注订单管理………………………………………………64
5.6 数据标注客户关系管理…………………………………………65
5.7 作业与练习………………………………………………………66
参考文献… ……………………………………………………………………66
第6章 数据标注应用……………………………………………………68
6.1 自动驾驶…………………………………………………………68
6.1.1 自动驾驶的发展 ………………………………………… 68
6.1.2 自动驾驶的9 种数据标注 ……………………………… 706.2 智能安防…………………………………………………………75
6.2.1 智能安防的发展分析 …………………………………… 75
6.2.2 智能安防的5 种数据标注 ……………………………… 776.3 智能医疗…………………………………………………………80
6.3.1 智能医疗的发展 ………………………………………… 80
6.3.2 智能医疗应用的4 种数据标注 ………………………… 806.4 作业与练习………………………………………………………82
参考文献… ……………………………………………………………………83
第7章 数据标注实战……………………………………………………84
7.1 实战环境搭建……………………………………………………84
7.1.1 标注工具安装环境搭建 ………………………………… 84
7.1.2 LabelImg 标框标注工具的使用方法 …………………… 92
7.1.3 Labelme 工具的安装与使用方法 ……………………… 1007.2 医疗影像标注………………………………………………… 104
7.3 遥感影像标注………………………………………………… 106
7.4 车牌图像标注………………………………………………… 109
7.4.1 车牌图像标框标注 …………………………………… 109
7.4.2 车牌图像分类标注 …………………………………… 1107.5 人像数据标注………………………………………………… 113
7.5.1 行人图像标注 ………………………………………… 113
7.5.2 人脸数据标注 ………………………………………… 1167.6 作业与练习…………………………………………………… 121
参考文献… ………………………………………………………… 121
附录 大数据实验平台(数据标注版)… ………………… 122