1. 什么是机器学习
从历史数据中寻找规律,把规律用到对未来不确定场景的决策。规律=数学公式。
机器学习发展的原动力
- 从历史数据中寻找规律,把规律用到未来自动做出决策
- 用数据代替expert(因为专家决策有片面性主观性)
- 经济驱动,数据变现
业务发展历史
- 基于专家经验——>然后由程序员用if-else实现
- 基于统计,分析人员对统计数据进行分析(强烈依赖于分析人员的业务能力)
- 机器学习
- 离线学习:跑个定时脚本,训练模型。例如:根据历史数据当天晚上训练好模型后以供第二天使用;
- 在线学习:当用户发起一次请求,模型就在线学习一次,结合实时数据训练模型。
2. 生活中的机器学习
购物篮分析——关联规则;
用户细分精准营销——聚类
垃圾邮件识别——朴素贝叶斯
信用卡防欺诈——决策树
互联网广告——CTR预估
推荐系统——协同过滤
3. 数据分析和机器学习
数据分析 | 机器学习 | |
---|---|---|
处理的数据 | 交易数据(和钱有关);少量数据;采样分析 | 行为数据;海量数据;全量分析 |
解决的业务问题 | 报告过去的事 | 预测未来的事 |
技术手段 | 用户驱动(依赖于分析人员的经验技术) | 算法+数据驱动 |
目标用户 | 公司高层 | 用户个体 |
4. 常用算法
算法分类
- 按照算法学习方式
算法的目的是找出输入X和输出Y之间的关系。
有监督学习:有用于训练的样本数据,样本数据中包含输入以及对应的输出。
根据样本数据训练得到一个最优模型(即为X和Y的关系),再根据这个模型将新的输入映射为对应的输出。
例如:在人对事物的认识过程中,小时候被家长教这是鸟、那是鱼……这就相当于有输入和对应输出的样本数据。当我们见识多了,脑子里就慢慢得到了一些泛化的模型,这就是训练得到的函数。从而不需要大人在身边指点,我们也能分辨出来哪些是鸟、是房子。无监督学习:事先没有任何训练样本。
例如:我们参观画展,事先对艺术一无所知,但欣赏完很多作品后,我们也能把他们分为不同的派别(例如朦胧派,写实派……,即使我们不知道什么是朦胧派、什么是写实派,但至少能把他们分成几类)。半监督学习
- 按照要解决的问题的类型
- 分类与回归
- 聚类
- 标注
- 按照算法类似性
- 生成模型
- 判别模型
生成模型 | 判别模型 | |
---|---|---|
输出结果的形式 | 给出属于A/B/C类的概率,类似陪审团 | 通过给定函数判断Y/N,类似大法官裁决,非一即二 |
常见算法
常见算法.png
常见算法2.png
5. 机器学习解决问题的框架
- 确定目标
- 明确业务需求
- 准备数据
- 特征工程(Feature Engineering):该部分工作对模型的最终效果影响很大
- 训练模型
- 定义模型
- 定义损失函数
- 优化算法
- 模型评估
- 交叉验证:将不同算法带入同一数据中,验证效果
- 效果评估:评出几个算法之间的差别、效果