打造一款机器学习产品是多方面的复杂任务。下面是机器学习专家在工作中需要做的事:
理解语境
找准能从机器学习中受益的区域
与其他相关人员讨论机器学习能做什么、不能做什么
让每个人都了解商业策略、风险和目标
明确目前公司有什么类型的数据
对任务制定合适的框架
了解操作限制
提前确定可能的道德风险,例如你的成果有可能被滥用、或被用于宣传
确定潜在的偏见和潜在的负面反馈
数据
制作能收集更多不同数据的计划
将不同来源的数据汇总
处理缺失的或被污染的数据
数据可视化
建立合适的训练集、验证集和测试集
建模
选择使用哪个模型
将资源模型纳入约束条件(即最终模型需要在顶尖设备商运行,内存少、延长时间长等等)
选择超参数(包括架构、损失函数、优化器)
训练模型,并进行debug。其中包括调参、查看损失函数、训练错误、验证错误是否有改变、监测模型数据、确定错误来源、改变数据清洗和处理的方式、改变数据增强方式、添加更多数据、尝试不同模型、是否过度拟合。
模型生成
创建一个API或网页app
将模型输出成想要的格式
计划模型多久需要重新训练一次并更新数据
监测
追踪模型性能
监测输入数据,确定数据是否会随时间使得模型失效
与其他人员交流结果
制定计划,如何监测和应对意外结果