问题
验证方法
- 有哪些?
- 当样本数趋向于无穷时,自助法中大概有多少样本未被选出?
超参数
- 如何调优?
余弦距离
- 什么是?
- 余弦距离和欧式距离的区别?
- 余弦距离是否为严格的距离?
评估指标
- 准确率的局限性?
- 精确率和召回率的局限性?
- 平方根误差的局限性?
- ROC曲线的绘制?
- POC曲线和P-R曲线的区别?
- AUC是什么?
过拟合和欠拟合
- 什么是过拟合和欠拟合?
- 如何降低?
A/B测试
- 什么是?
- 为什么在充分的离线评估之后还有进行?
- 如何进行?
解答
验证方法
有哪些?
Holdout检验
直接按照比例将数据集划分为训练集和验证集,一般是70%,30%。
这样在验证集上得到的评估指标可能和原始数据集有一定的出入。
交叉验证
将样本划分为k份,依次遍历k份,将当前的作为验证集,其余的为训练集。将所有的结果求平均值作为最终的评估指标。称之为k-fold交叉验证。k常取10。
当每份的大小为1时,称之为留一验证。是留p验证的特例。但是留p验证的时间时间开销要更大,因为它划分的分数更多。
自助法
对数据集进行有放回的随机抽样,将抽样数据集作为训练集,所有没有被抽到的作为验证集。当样本数趋向于无穷时,自助法中大概有多少样本未被选出?
在一次抽样中,一个样本没有被抽到的概率,抽n次没有被抽到的概率,当n趋向于无穷时,可以得到,也就是说有36.8%的样本没有被抽到。
超参数
- 如何调优?
网格搜索
遍历得到最优解。
实际中,先选择较大的搜索范围和步长,寻找最优解可能存在的位置。然后逐渐缩小搜索范围和步长,得到更加准确的解。但是由于目标函数一般是非凸的,所以可能错过全局最优解。
随机搜索
随机选择样本点进行搜索,得到最优解。
也是近似的。
贝叶斯优化
学习目标函数的形状。
先根据先验分布假设一个搜索函数,每次使用一个新的样本点测试目标函数,更新先验分布,最后通过后验分布得到最优解。
当找到一个局部最优解时可能会陷入,这要求在探索和利用之间寻找平衡。探索指的是在未取样的区域取样,利用指的是根据后验分布在最优解可能出现的区域采样。
余弦距离
什么是?
余弦相似度指的两个向量的cos值,取值范围[-1,1],用1减掉cos就是余弦距离,取值范围[0,2]。余弦距离和欧式距离的区别?
余弦距离体现的是向量在方向上的相对差异,是相似度。
欧氏距离体现的是在大小上的差异,是数值上的绝对差异。余弦距离是否为严格的距离?
不是。
距离应该满足三点:正定型,对称性和三角不等性。
正定型:大于等于0。满足。
对称性:满足。
三角不等性:举一个例子,,所以不满足。
评估指标
准确率的局限性?
Accuracy,分类正确的样本比例。
当样本不均衡时,准确率的结果往往不具备代表性。精确率和召回率的局限性?
Precision,分类正确的正样本占分类为正样本的比例。
Recall,分类正确的正样本占总体正样本的比例。
精确率高必然意味着将没把握的样本预测为负样本,这将导致召回率低。平方根误差的局限性?
当存在个别偏离程度非常大的点时,将会导致平方根误差特别大。ROC曲线的绘制?
将判断阈值从小到大移动,分别得到TPR和FPR,最终得到ROC。
横轴单位1/n,纵轴为1/p,从原点开始,样本结果从大到小,遇到真实正样本,纵轴加1,负样本横轴加1。POC曲线和P-R曲线的区别?
当正负样本的分布发生变化时,ROC曲线的形状基本不变,但是P-R曲线会剧烈变化。
ROC曲线能稳定的反应出模型的好坏,但是P-R曲线更能直观的反映出模型的性能。AUC是什么?
ROC曲线下的面积。
过拟合和欠拟合
什么是过拟合和欠拟合?
过拟合将训练数据拟合的太好,学到了噪声。在训练数据上的效果好,但是在验证集上的效果不好。
欠拟合没有学到足够的信息。在训练集合测试集上的表现都不好。如何降低?
过拟合
(1)获得更多的数据。变换数据,生成数据。
(2)降低复杂度。神经网络中降低层数,神经元个数。在决策树中降低深度,进行剪枝操作。
(3)正则化方法。给模型添加正则约束。将权值大小加入到损失函数中,可以在优化目标时避免权重过大带来的过拟合问题。
(4)集成学习。
欠拟合
(1)添加新特征。当特征不足或者是现有特征和样本标签之间的相关性不高时,容易欠拟合。可以通过挖掘上下文特征、ID类特征、组合特征等方式添加新特征。做一些特征工程。
(2)增加模型复杂度。
(3)减少正则化系数。
A/B测试
什么是?
同时上线A和B两个模型供人使用,在相同环境下进行对比。为什么在充分的离线评估之后还有进行?
(1)离线评估无法完全消除过拟合的影响。
(2)离线评估不考虑实际线上环境延迟、数据丢失、标签缺失等问题,是在理解工程环境下的结果,无法完全还原线上的工程环境。
(3)离线评估是对模型本身的评估,其他指标特别是商业指标是无法获得的。如何进行?
将用户分桶,实验组使用新模型,对照组使用旧模型。
分桶时应该注意样本独立性(每个用户只在一个桶中)和采样方式的无偏性(选择的id是随机产生的)。
作者原创,如需转载及其他问题请邮箱联系:lwqiang_chn@163.com。
个人网站:https://www.myqiang.top。
GitHub:https://github.com/liuwenqiang1202。