训练集、验证集、测试集

模型参数分为训练参数和超参数，其中前者是在训练集上训练得到的，而后者是在训练之前由用户指定的，比如学习率、迭代次数等。
机器学习中，样本集通常会被划分为训练集、验证集和测试集，其中训练集和测试集一般是必须有的，验证集在很多情况下可以没有。

★训练集：用于训练模型的训练参数。

★测试集：用于检验已经训练好的最终模型的泛化性能（特别注意：经过测试集后，模型参数就不能再动了）。

对于一个训练好的模型，需要了解它的泛化性能，理想的的泛化性能评估应该在除原样本集之外的所有潜在样本上进行计算，但实际中没法得到这些潜在样本，于是退而求其次，在原样本集上划分出一个测试集作为替代，并将在该测试集上的泛化性能近似作为在所有潜在样本上的泛化性能。

注意：
（1）测试集中的样本与训练集、验证集不能有任何交集；
（2）测试集只能用于检验最终模型的泛化性能，不能用于更新模型参数。如果利用在测试集上得到的误差进一步训练模型，本质上是将测试集也作为训练集对待了，也就没有了测试集。
（3）理论上，如果最终模型在测试集上的表现非常差，则应该从样本数据量、样本分布、训练集和测试集划分情况、模型选择等一系列因素入手查找原因，而不是回去继续调整模型参数（虽然也有可能就是模型参数还不不够好）。
【值得注意的是，模型在测试集上的准确率不一定越高越好。如果样本集本身的分布存在局限性（无法有效表征所有潜在样本的基本特征），那么测试集的分布就更有局限性，此时测试集上的高准确率就意味着严重的过拟合，模型投入实际应用后准确率一定差。因此对于不太理想的样本集而言，测试集上的准确率相对低一些，模型的真正泛化性能反而更好。如果样本集的分布足够好，能足够表征所有潜在样本的特征，那么模型在测试集上的准确率越高越好。】

★验证集：用于检验模型的性能（这点和测试集相同），但可以根据检验结果反过来调整模型参数，主要是超参数（这点和测试集不同）。

验证集是训练集和测试集之间的一个中间件。根据前面的定义，我们发现了一个问题，如果只有训练集和测试集，是无法在测试集之前对模型进行评价的。实际上我们更希望在最终模型确定之前，可以先对模型进行一定的评价，然后根据评价结果调整模型参数（特别是超参数）后重新训练，直到我们认为模型已经不错了，最后再用测试集进行测试，测试就只为了查看模型的近似泛化性能，不再继续更新模型参数。正是为了这个目的，才划分出了一个验证集。可见，验证集一定程度上还是训练集，因为会根据验证集的结果调整模型参数。

有了验证集，整个过程就变成了下面这样：
（1）先确定一组超参数C0，然后在训练集上训练得到参数W0，再用验证集进行检验；
（2）如果效果不好，则继续调整超参数C1，重新在训练集上训练得到参数W1；
……
（3）如此循环n次，最终得到了一系列超参数和训练参数【(C0,W0)，(C1,W01，……，(Cn,Wn)】；
（4）最后从中找出在验证集上表现最好的参数对(Cb,Wb)，到这一步，我们已经基本找到了相对最优的超参数Cb；
（5）接下去可以直接将(Cb,Wb)作为最终模型参数；也可以利用超参数Cb在“训练集+验证集”上重新训练一遍，得到一个新的训练参数Wbb，此时(Cb,Wbb)就是最终模型参数；
（6）最后用测试集检验最终模型(Cb,Wb)或(Cb,Wbb)的泛化效果，好与不好都不再调整模型参数了。

最后编辑于：2023.09.21 10:23:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,496评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,407评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,632评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,180评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,198评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,165评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,052评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,910评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,324评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,542评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,711评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,424评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,017评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,668评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,823评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,722评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,611评论 2赞 353

训练集、验证集、测试集

★训练集：用于训练模型的训练参数。

★测试集：用于检验已经训练好的最终模型的泛化性能（特别注意：经过测试集后，模型参数就不能再动了）。

★验证集：用于检验模型的性能（这点和测试集相同），但可以根据检验结果反过来调整模型参数，主要是超参数（这点和测试集不同）。

推荐阅读更多精彩内容