7月在线ML特训营-第三期-第1课时笔记
本课程中的知识点主要是微分学、梯度下降法、概率论基础、机器学习栗子等
- 微分学
- 梯度下降法
- 概率论基础
- 机器学习栗子
数学在机器学习中的应用
- 模型建立与选择:对工程问题进行抽象和量化
- 模型训练:参数的选择和调参与优化过程
微分学
微分学核心思想
微分学的核心思想是函数逼近:使用熟悉且简单的函数对复杂函数进行局部逼近。
实际中的demo
:
- 人均GDP:使用常数函数来逼近收入函数
- 平均速度:使用线性函数来逼近实际运行轨迹
- 年化收益率:使用指数函数来逼近收益函数
常用作逼近的函数:
- 线性函数:函数的一阶导数
- 多项式函数:泰勒级数
极限论
- 微分学的基础是极限论。极限的表述为:当
时,
的极限是
,即:
- 一般把趋于零的极限称之为无穷小
-
两边夹定理:如果
在a点出存在极限,那么:
-
重要的极限
三角函数
自然对数底数
指数函数:
一阶导数公式
一般表示为
,那么
-
二阶导数
- 导数的导数就是二阶导数
- 泰勒级数就是利用n阶导数对函数进行高阶逼近
泰勒展开
设函数在点
处的某邻域内具有
阶导数,则对该邻域内异于
的任意点
,在
与
之间至少存在 一个
,使得:
其中
称为在点
处的
阶泰勒余项。
令,则
阶泰勒公式
其中
在0与
之间.(1)式称为麦克劳林公式
-
常用5种函数在
处的泰勒公式
- (1)
或者表示为
(2)
或表示为:
(3)
或表示为:
(4)
或表示为:
(5)
或表示为:
随机梯度下降法
梯度基础
-
梯度
对于可微函数f(x,y),梯度定义为:
梯度方向就是函数增长最快的方向;反方向就是减小最快的方向
- 梯度下降法
(1). 如果是一个多元函数,在
处对
做线性逼近:
(2). 通过学习率来表示梯度走下去的方向
(3). 本质:对函数进行一阶逼近寻找函数下降最快的方向
- 牛顿法
本质:对函数进行二阶逼近,并估计函数的极小值点
-
困难点
梯度的计算:样本量过大,梯度计算非常耗时
学习率的选择:太小到时算法收敛太慢;过大导致算法不收敛
随机梯度下降法
随机梯度下降法是为了解决梯度的计算问题,梯度下降法的分类:
批梯度下降GD
随机梯度下降SGD
小批量随机梯度下降Mini Batch SGD
优化算法
动量算法
Adgrad(自动调整学习率)
Adamdelta
Adam
概率论
基础点
1.事件的关系与运算
(1) 子事件:,若
发生,则
发生。
(2) 相等事件:,即
,且
。
(3) 和事件:(或
),
与
中至少有一个发生。
(4) 差事件:,
发生但
不发生。
(5) 积事件:(或
),
与
同时发生。
(6) 互斥事件(互不相容):=
。
(7) 互逆事件(对立事件):
2.运算律
(1) 交换律:
(2) 结合律:
(3) 分配律:
概率公式
(1)条件概率: ,表示
发生的条件下,
发生的概率。
(2)全概率公式:
(3) Bayes公式:
注:上述公式中事件的个数可为可列个。
(4)乘法公式:
(5)联合概率
给定Y先发生,X再发生的概率
(6) 贝叶斯公式
P(Y|X) 后验概率
P(Y) 先验概率
假设含有sex的邮件是垃圾邮件的概率是, Y是垃圾邮件的概率是0.9;假设垃圾邮件出出现sex的概率是1%,正常邮件中出现sex的概率是0.1%,求出
(7)生成模型和判别模型
生成模型:
朴素贝叶斯
隐马尔科夫
判别模型:
逻辑回归
支持向量机
条件随机场
(8). 常见分布
(1) 0-1分布:
(2) 二项分布::
(3) Poisson分布::
(4) 均匀分布:
(5) 正态分布:
(6)指数分布:
(7)几何分布:
(8)超几何分布:
期望、方差、协方差和相关系数
基础知识点
期望
;
如果XY独立,那么
方差
协方差
相关系数
,
阶原点矩
;
几个性质:
(1)
(2)
(3)
(4)
(5) ,其中
,其中
常见分布的期望和方差
概率分布有两种型別:离散(discrete)概率分布和连续(continuous)概率分布。
离散概率分布也称为概率质量函式(probability mass function)。离散概率分布的例子有
- 伯努利分布(Bernoulli distribution)
- 二项分布(binomial distribution)
- 泊松分布(Poisson distribution)
- 几何分布(geometric distribution)
连续概率分布也称为概率密度函式(probability density function),它们是具有连续取值(例如一条实线上的值)的函式。常见的有:
- 正态分布(normal distribution)
- 指数分布(exponential distribution)
- β分布(beta distribution)
机器学习实例
查全率、查准率和
- 定义
对于二分类问题,可将样本实例根据真实类别(真假)和学习器预测得到的类别(正反)的组合分为四种:
- 真正例 true positive,TP
- 假正例 false positive,FP
- 真反例 true negative,TN
- 假反例 false negative,FN
分类结果的混淆矩阵如下:
真实情况 | 预测结果 | |
---|---|---|
正例 | 反例 | |
真 | TP(真正) | FN(假反) |
假 | FP(假正) | TN(真反) |
查准率P和查全率R分别定义为:
注意:查准率和查全率是一对矛盾的度量。
F1是基于P和R的调和平均值:
- 应用demo
查全率recall
:逃犯信息检索系统中,希望尽可能少的漏掉逃犯
查准率precision
:推荐系统中,为了尽可能少的打扰客户,希望推荐的内容是用户感兴趣的。
- ROC和AUC
ROC(Reciver Operation Characteristic)全称是“受试者工作特征”曲线。曲线横、 纵坐标为:
- 横轴:FPR
- 纵轴:TPR
AUC(Area Under ROC Curve):指的是RUC曲线下面的面积。
朴素贝叶斯
朴素贝叶斯的公式
中间表示的是贝叶斯公式;后面的假设表示每个X是相互独立的
决策树
主要算法有:ID3、C4.5、CART
各种熵
- 信息熵:
- 联合熵:
- 条件熵:条件熵=联合熵-熵
- 信息增益:
- 交叉熵:
- KL散度(相对熵)=交叉熵-熵
学习收获
今天花了4个多小时学习和整理第一课时的两个视频,学习的同时也复习了很多基本知识,包含:
- 高数
- 微积分
- 概率论与统计
此外自己也了解了不同的机器学习算法在实际中的不同应用常景。打好基础,继续前进!
待改进点
需要进一步改进的地方:
- 概率论落下的知识蛮多的,需要好好补充
- 对算法的理解需要提高,实际编码的能力有待提升
- 对于在本课程中提到的随机梯度下降算法需要好好掌握!
本节课主要注重的是理论基础知识,希望有更多的例子和实战相结合!加油吧️
本文为原创,转载请注明!