模型评估

问题

验证方法

有哪些？
当样本数趋向于无穷时，自助法中大概有多少样本未被选出？

超参数

如何调优？

余弦距离

什么是？
余弦距离和欧式距离的区别？
余弦距离是否为严格的距离？

评估指标

准确率的局限性？
精确率和召回率的局限性？
平方根误差的局限性？
ROC曲线的绘制？
POC曲线和P-R曲线的区别？
AUC是什么？

过拟合和欠拟合

什么是过拟合和欠拟合？
如何降低？

A/B测试

什么是？
为什么在充分的离线评估之后还有进行？
如何进行？

解答

验证方法

有哪些？
Holdout检验
直接按照比例将数据集划分为训练集和验证集，一般是70%，30%。
这样在验证集上得到的评估指标可能和原始数据集有一定的出入。
交叉验证
将样本划分为k份，依次遍历k份，将当前的作为验证集，其余的为训练集。将所有的结果求平均值作为最终的评估指标。称之为k-fold交叉验证。k常取10。
当每份的大小为1时，称之为留一验证。是留p验证的特例。但是留p验证的时间时间开销要更大，因为它划分的分数更多。
自助法
对数据集进行有放回的随机抽样，将抽样数据集作为训练集，所有没有被抽到的作为验证集。
当样本数趋向于无穷时，自助法中大概有多少样本未被选出？
在一次抽样中，一个样本没有被抽到的概率 $p=1-1/n$ ，抽n次没有被抽到的概率 $q=p^n$ ，当n趋向于无穷时，可以得到 $q=1/e$ ，也就是说有36.8%的样本没有被抽到。

超参数

如何调优？
网格搜索
遍历得到最优解。
实际中，先选择较大的搜索范围和步长，寻找最优解可能存在的位置。然后逐渐缩小搜索范围和步长，得到更加准确的解。但是由于目标函数一般是非凸的，所以可能错过全局最优解。
随机搜索
随机选择样本点进行搜索，得到最优解。
也是近似的。
贝叶斯优化
学习目标函数的形状。
先根据先验分布假设一个搜索函数，每次使用一个新的样本点测试目标函数，更新先验分布，最后通过后验分布得到最优解。
当找到一个局部最优解时可能会陷入，这要求在探索和利用之间寻找平衡。探索指的是在未取样的区域取样，利用指的是根据后验分布在最优解可能出现的区域采样。

余弦距离

什么是？
余弦相似度指的两个向量的cos值，取值范围[-1,1]，用1减掉cos就是余弦距离，取值范围[0,2]。
余弦距离和欧式距离的区别？
余弦距离体现的是向量在方向上的相对差异，是相似度。
欧氏距离体现的是在大小上的差异，是数值上的绝对差异。
余弦距离是否为严格的距离？
不是。
距离应该满足三点：正定型，对称性和三角不等性。
正定型：大于等于0。满足。
对称性：满足。
三角不等性：举一个例子 $A=(1,0)，B=(1,1)，C=(0,1)$ ， $dist(A,B)+dist(B,C)<dist(A,C)$ ，所以不满足。

评估指标

准确率的局限性？
Accuracy，分类正确的样本比例。
当样本不均衡时，准确率的结果往往不具备代表性。
精确率和召回率的局限性？
Precision，分类正确的正样本占分类为正样本的比例。
Recall，分类正确的正样本占总体正样本的比例。
精确率高必然意味着将没把握的样本预测为负样本，这将导致召回率低。
平方根误差的局限性？
当存在个别偏离程度非常大的点时，将会导致平方根误差特别大。
ROC曲线的绘制？
将判断阈值从小到大移动，分别得到TPR和FPR，最终得到ROC。
横轴单位1/n，纵轴为1/p，从原点开始，样本结果从大到小，遇到真实正样本，纵轴加1，负样本横轴加1。
POC曲线和P-R曲线的区别？
当正负样本的分布发生变化时，ROC曲线的形状基本不变，但是P-R曲线会剧烈变化。
ROC曲线能稳定的反应出模型的好坏，但是P-R曲线更能直观的反映出模型的性能。
AUC是什么？
ROC曲线下的面积。

过拟合和欠拟合

什么是过拟合和欠拟合？
过拟合将训练数据拟合的太好，学到了噪声。在训练数据上的效果好，但是在验证集上的效果不好。
欠拟合没有学到足够的信息。在训练集合测试集上的表现都不好。
如何降低？
过拟合
（1）获得更多的数据。变换数据，生成数据。
（2）降低复杂度。神经网络中降低层数，神经元个数。在决策树中降低深度，进行剪枝操作。
（3）正则化方法。给模型添加正则约束。将权值大小加入到损失函数中，可以在优化目标时避免权重过大带来的过拟合问题。
（4）集成学习。
欠拟合
（1）添加新特征。当特征不足或者是现有特征和样本标签之间的相关性不高时，容易欠拟合。可以通过挖掘上下文特征、ID类特征、组合特征等方式添加新特征。做一些特征工程。
（2）增加模型复杂度。
（3）减少正则化系数。

A/B测试

什么是？
同时上线A和B两个模型供人使用，在相同环境下进行对比。
为什么在充分的离线评估之后还有进行？
（1）离线评估无法完全消除过拟合的影响。
（2）离线评估不考虑实际线上环境延迟、数据丢失、标签缺失等问题，是在理解工程环境下的结果，无法完全还原线上的工程环境。
（3）离线评估是对模型本身的评估，其他指标特别是商业指标是无法获得的。
如何进行？
将用户分桶，实验组使用新模型，对照组使用旧模型。
分桶时应该注意样本独立性（每个用户只在一个桶中）和采样方式的无偏性（选择的id是随机产生的）。

作者原创，如需转载及其他问题请邮箱联系：lwqiang_chn@163.com。
个人网站：https://www.myqiang.top。
GitHub：https://github.com/liuwenqiang1202。

最后编辑于：2019.02.25 11:54:51

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

模型评估

问题

验证方法

超参数

余弦距离

评估指标

过拟合和欠拟合

A/B测试

解答

验证方法

超参数

余弦距离

评估指标

过拟合和欠拟合

A/B测试

推荐阅读更多精彩内容