深度学习模型训练的过程理解(训练集、验证集、测试集),如何训练出好的模型

从数据层面上, 能够影响模型性能的有二个因素:

数据集的质量

数据增强

数据质量:数据应该是准确,完整,无误,且具有代表性。如果数据集有错误或缺失,将会影响模型的性能, 选择分辨率越高肯定对模型是越好的,但是也要考虑到模型训练占用的内存够不够,因为分辨率越高,数据量就越大数据量:更多的数据通常可以提高模型的性能,因为它使得模型更具有代表性和泛化能力。但是,数据集的大小也会影响训练时间和资源要求。 但对模型训练收敛来说,数据量大小对于模型收敛没有决定性的影响,只能说数据量越大,同时数据多样性分布性很好,模型是一定会泛化数据预处理:在选择数据集之前,需要了解数据的特性并进行预处理。例如,对于图像分类问题,可能需要对图像进行缩放或裁剪,或者将像素值标准化到[0,1]范围内。数据来源:应该选择可靠的数据来源。一些数据集可能来自于不可靠的或不真实的来源,这可能会导致模型的性能下降。数据分割:在选择数据集时,应该将数据分成训练集,验证集和测试集。这样可以用来评估模型的泛化能力和性能。数据标注:在某些任务中,需要对数据进行标注,以便训练模型。这可能需要大量的人工劳动力和时间成本。

机器学习最明显的一个特点是需要大量的数据。特别对监督学习来说,就是需要大量的带标签数据。

很多入门的朋友很快就会遇见模型训练和测试这两个阶段,进而也就了解到带标签数据是要被划分成两个部分的:训练集与测试集。这两个概念也很直观,大部分朋友非常快就能接受。可是到后面,在我们需要为机器学习模型调参的时候,半路杀出来了个交叉验证阶段,这个对应的数据集也有个名字,叫做验证集。

先用一个不恰当的比喻来说明3种数据集之间的关系:

训练集相当于上课学知识

验证集相当于课后的的练习题,用来纠正和强化学到的知识

测试集相当于期末考试,用来最终评估学习效果

数据划分的方法并没有明确的规定,不过可以参考3个原则:

对于小规模样本集(几万量级),常用的分配比例是 60% 训练集、20% 验证集、20% 测试集。

对于大规模样本集(百万级以上),只要验证集和测试集的数量足够即可,例如有 100w 条数据,那么留 1w 验证集,1w 测试集即可。1000w 的数据,同样留 1w 验证集和 1w 测试集。

超参数越少,或者超参数很容易调整,那么可以减少验证集的比例,更多的分配给训练集。


中小学题库,大学题库,职业教育题库,包含答案解析步骤,适用问答式大语言数据训练http://www.zhongxueda

而在教育领域需要的题库数据包括但不限于以下几种:

题目类型:选择题、填空题、解答题等。

题目难度:根据学生年级、能力等因素进行分类。

题目知识点:按照学科、章节、知识点进行分类,方便学生查找和练习。

题目来源:可以是教材、考试、竞赛等。

题目解析:提供详细的答案解析,帮助学生理解做题思路和方法。

题目数量:越多越好,可以满足不同学生的需求。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容