1.逻辑回归与梯度下降
逻辑回归:y_pred = sigmoid(w0 + w1*x1 + ... + wn * xn)
输出目标:(0,1)之间的数值
sigmoid函数:


函数性质:
1、 将任意 input压缩到(0,1)之间
2、 1/2 处的导数最大
3、 导函数为 f(x)(1-f(x))
4、 两边梯度趋于饱和,容易梯度消失
5、不以原点为中心,梯度更新慢
6、 单调性,使得在激活函数处的梯度方向不会经常改变,从而让训练更容易收敛
连续特征最好先离散化,例如分桶,再进入LR,会有较好鲁棒性
将连续特征离散化为一系列0、1特征交给逻辑回归模型,优点如下:
1、稀疏向量内积乘法运算速度快,计算结果方便存储,容易scalable(扩展)。
2、离散化后的特征对异常数据有很强的鲁棒性
3、逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合。
4、离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力。
5、特征离散化后,模型会更稳定
损失函数:交叉熵

样本分布:0-1分布/ 伯努利分布。
损失函数的由来:伯努利分布的极大似然估计
梯度法:

推导过程:

LR参数更新:

KL散度
1、衡量两个概率分布的相似性

2.正则化
目的:减小模型参数大小或者参数数量,缓解过拟合

L2和L1分别形成非稀疏和稀疏解的原因

黄色区域表示正则项限制,蓝色区域表示优化项的等高线,交点为最优解w*
优化算法
常见:梯度下降法、牛顿法、拟牛顿法、共轭梯度法等
牛顿法

向量
内积:两个向量的相似度
余弦相似度:内积/向量模的乘积
哈达玛积:对应位置相乘,长度不变
3. kernel函数
核函数:是映射关系
的内积,映射函数本身仅仅是一种映射关系,并没有增加维度的特性,不过可以利用核函数的特性,构造可以增加维度的核函数,这通常是我们希望的。
作用:直接求高维空间下的内积
二维映射到三维,区分就更容易了,这是聚类、分类常用核函数的原因。

4.sigmoid函数的数学公式推导

满足指数分布族的概率分布:
伯努利分布(Bernoulli):0-1分布
二项分布(Multinomial):重复n次伯努利实验
泊松分布(Poisson):描述单位时间内随机事件发生的次数。对计数过程进行建模,比如网站访问量的计数问题
指数分布(Exponential):要等到一个随机事件发生,需要经历多久时间
伽马分布(Gamma):要等到n个随机事件都发生,需要经历多久时间
高斯分布(Gaussian):即正态分布
5. 广义线性模型
对于回归或是分类问题,我们的目标是若其分布属于指数分布族的某种分布,那么可以求出拟合函数h(x)。