人工智能简介
人工智能发展与数据量大小的关系
横坐标为数据量,纵坐标为模型的表现效果
About dataset
获取数据的三种方法
人工标注
观察行为数据
开源数据集&合作伙伴
数据集的常见问题
IT团队产生的数据尽早和AI团队沟通,使产生的数据更符合AI的使用规范,发挥更大的价值
观点上错误:不是数据量大就一定能产生数据的价值
数据质量很差:garbage in garbage out eg. 数据错误、数据缺失、非结构化数据
专业术语
- Machine learning:机器学习-由输入A得出输出B的方法
- Data science:数据科学-更接近业务,通过一些数据挖掘,发现贴近业务的规律
- Deep learning:深度学习-神经网络(Neural network)含义可以互换,输入A通过一系列数学方程得到输出B,DL相对于神经网络只是一个更好听的品牌
如何使你的公司擅长AI
互联网时代:如何定义一家公司是互联网公司-能通过互联网业务为你赋能的公司
互联网公司的特点:
A/B testing
快速的迭代周期
做决定的权利由CEO下放至工程师&产品经理
AI时代:公司+深度学习&人工智能并不是AI公司
AI公司是擅长使用人工智能做事情,并且把他们做的很好的公司 AI公司的特点:
策略性的数据采集(这是一个好的AI公司的关键)
统一的数据仓库
善于捕捉将工作自动化的机会
有很多新的职位 例如MLE-机器学习工程师
如何使一个公司变成AI公司
启动试点项目来获得势头
建立人工智能团队
提供广泛的AI培训(不仅仅是工程师,负责人还要包含高管,包含如何思考人工智能)
制定一个人工智能战略
保证公司内部与外部的宣传一致
What ML can and can not do
Can do
一瞬间可以完成的事情,即简单概念,可以用监督学习来完成
提供大量的学习数据
Can not do
需要经过思考一段时间的事情,即复杂概念 eg 写一份市场调研报告
少量的学习数据
训练数据集与验证数据集类型出现不一致的情况,也会导致ML效果不理想
人类可以识别筛选出图片中有用的信息,机器只能依靠大量的图片从而收敛到某种信息中
Deep learning
- 神经网络=深度学习
- 最简单的神经网络就是一个神经元,即一个函数公式-由输入A得到输出B
- 复杂神经网络也是反应AB的映射关系
- 实际使用时,不需要考虑神经元需要计算什么,只需要给予足够多的学习数据,并且训练一个足够大的神经网络,系统就能自动的学习出A到B的映射关系
- 神经网络就是由大量神经元组成,每个神经元会生成一个简单的函数,堆叠在一起可以表示极其复杂的函数,从而可以极其精准的自动的学习从输入A到输出B的映射(前提还是需要足够的学习数据)