推荐系统总结（1）机器学习基础

1.逻辑回归与梯度下降

逻辑回归：y_pred = sigmoid(w0 + w1*x1 + ... + wn * xn)
输出目标：（0,1）之间的数值
sigmoid函数：

函数图像

函数性质：
1、将任意 input压缩到（0，1）之间
2、 1/2 处的导数最大
3、导函数为 f(x)(1-f(x))
4、两边梯度趋于饱和，容易梯度消失
5、不以原点为中心，梯度更新慢
6、单调性，使得在激活函数处的梯度方向不会经常改变，从而让训练更容易收敛

连续特征最好先离散化，例如分桶，再进入LR，会有较好鲁棒性

将连续特征离散化为一系列0、1特征交给逻辑回归模型，优点如下：
1、稀疏向量内积乘法运算速度快，计算结果方便存储，容易scalable（扩展）。
2、离散化后的特征对异常数据有很强的鲁棒性
3、逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合。
4、离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力。
5、特征离散化后，模型会更稳定

损失函数：交叉熵

样本分布：0-1分布/ 伯努利分布。
损失函数的由来：伯努利分布的极大似然估计

梯度法：

推导过程：

LR参数更新：

KL散度

1、衡量两个概率分布的相似性

2、定义

2.正则化

目的：减小模型参数大小或者参数数量，缓解过拟合

L2和L1分别形成非稀疏和稀疏解的原因

黄色区域表示正则项限制，蓝色区域表示优化项的等高线，交点为最优解w*

优化算法

常见：梯度下降法、牛顿法、拟牛顿法、共轭梯度法等
牛顿法

向量

内积：两个向量的相似度
余弦相似度：内积/向量模的乘积
哈达玛积：对应位置相乘，长度不变

3. kernel函数

核函数：是映射关系

的内积，映射函数本身仅仅是一种映射关系，并没有增加维度的特性，不过可以利用核函数的特性，构造可以增加维度的核函数，这通常是我们希望的。

作用：直接求高维空间下的内积

二维映射到三维，区分就更容易了，这是聚类、分类常用核函数的原因。

4.sigmoid函数的数学公式推导

满足指数分布族的概率分布：
伯努利分布(Bernoulli)：0-1分布
二项分布(Multinomial)：重复n次伯努利实验
泊松分布(Poisson)：描述单位时间内随机事件发生的次数。对计数过程进行建模，比如网站访问量的计数问题
指数分布(Exponential)：要等到一个随机事件发生，需要经历多久时间
伽马分布(Gamma)：要等到n个随机事件都发生，需要经历多久时间
高斯分布(Gaussian)：即正态分布

5. 广义线性模型

对于回归或是分类问题，我们的目标是若其分布属于指数分布族的某种分布，那么可以求出拟合函数h(x)。

最后编辑于：2021.10.28 15:16:51

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐系统总结（1）机器学习基础

推荐系统总结（1）机器学习基础

1.逻辑回归与梯度下降

KL散度

2.正则化

优化算法

向量

3. kernel函数

4.sigmoid函数的数学公式推导

5. 广义线性模型

相关阅读更多精彩内容

友情链接更多精彩内容