Start an AI project
Workflow of AI project
-
Key steps of an ML project
Collect data
Train model
需要注意的是第一次模型往往不理想,此时需要反复迭代数次,直到模型足够好为止
- Deploy model
Get data back & maitain/update model 实际使用时,往往会遇到水土不服的情况,就需要根据数据升级模型
-
Key steps of a data science projecct
Collect data
Analyze data 迭代多次分析,直到发现好的见解/建议
提出假设和行动 实施了行动后需要进一步的收集新的数据,进而分析数据。迭代假设和行动
Select AI project
-
Brainstorm framwork
去考虑自动化一些工作,而不是自动化一个岗位
驱动商业价值的主要因素有哪些
目前遇到的主要痛点有哪些
-
开展AI工作的思考和建议:即使没有大数据也能开展工作
大量的数据总是没有坏处的,一般而言,数据量越大模型效果越好
数据会使得业务的防御壁垒更高
例如搜索这种长尾业务,如果能够发掘不常见搜索关键词的行为数据,训练出来的模型会很强大
- 基于小数据量依然能够使工作有进展,这取决于要解决的业务问题的宽窄
-
好的AI项目需要满足AI可行性&商业价值
-
AI可行性
AI工程能否达到预期的表现
需要多少的学习数据
工程安排时间表-包含工程师数量
-
商业价值
降本
增效
产生新产品or新业务
-
-
Build VS Buy
ML通常既可以Buy也可以build
DS通常是企业自己建设
有行业标准的事物,尽可能的避免建设(不要试图在火车前奔跑)
Organizing data & team for the project
-
制定一个项目验收标准
项目目标是否能够以统计数字的形式来表示 - 95%识别率
标准:既能通过AI调研,又能通过商业调研,不需要达到100%准确率
需要准备 训练集&测试集(开发集、验证集)
-
不要期望ML能做到100%准确率
ML本身的局限性
学习数据太少
混乱的学习数据(学习数据是错误的)
模棱两可的数据(人为判断也会出现分歧)
-
Technical tool for AI team
-
Open source ML framework
- TensorFlow、PyTorch、Keras、MXNet、CNTK、Caffe、PaddlePaddle、Scikit-learn、R、Weka
-
Research publication
- Arxiv
-
Cloud server
- Amazon AWS、Microsoft AZure、google GCP
Edge deployment 边缘部署
指的是把处理过程部署在收集数据的地方,以便快速的处理数据并做出决策
-