什么是超参数?
超参数是用来控制机器学习模型训练过程的参数,它们通常在训练之前进行手动或自动地调整。与模型内部的参数不同,超参数通常在训练过程中不会被修改,需要根据数据集和模型架构进行调整。
超参数可以决定机器学习模型的性能和表现,影响模型的训练速度和过拟合风险等。因此,超参数的选择是十分重要的。
以神经网络为例,常见的超参数包括:
学习率(Learning Rate):控制梯度下降的步长,过小会导致训练缓慢,过大会使训练不稳定。
批量大小(Batch Size):控制训练中用于更新模型参数的样本数量,过小会导致训练缓慢和过拟合,过大会导致训练不稳定和内存不足。
epoch数目:控制训练时的迭代次数,过小会导致欠拟合,过大会导致 overfitting 。
正则化参数(Regularization):控制权重衰减的强度或者dropout的比例,过小会导致过拟合,过大会导致欠拟合。
神经网络结构(Neural Network Architecture):包括神经元的数量、层数、激活函数等,通过它们的不同组合可以得到不同的模型结构和性能。
什么是Roberta?
是一种优化和改进bert预训练算法的方法。
什么是epoch?
Epoch是机器学习中的一个术语,指的是训练时数据集将被完整地“遍历”一次的次数。在训练神经网络模型时,数据通常会被划分为一个个小的batch,每次训练模型时传入一个batch的数据,经过前向传播、反向传播等过程更新网络参数,一次batch的训练过程称为一次迭代(Iteration)。
例如,假定有一个训练数据集包含60000个样本,分为100个batch,每个batch包含600个样本,那么一个epoch就意味着整个训练数据集会被用于网络的训练一次,也就是网络会被训练100次迭代。
通常情况下,一个epoch的大小越大,则整个训练过程的时间会越久,但是网络的泛化性能也会随着训练次数的增加而显著提升。此外,在一些特定的模型中,需要进行多次epoch的训练,以便更好地优化模型的表现。