机器学习的数据
假设特征变量x∈Rn+1,且有足够的信息可以测试精确地预测y的值。
在使用含有非常多的参数的学习算法(如:含非常多的特征变量的线性回归或者逻辑回归;隐藏层激活单元数非常多的神经网络)时,其可以保证低偏差,即不会出现欠拟合问题,以及其Jtrain(θ)的值也非常小。
在此基础上,我们使用非常大的训练集。由于训练集数量大于特性变量,其不太可能出现过拟合问题,即保证低方差,以及Jtrain(θ) ≈ Jtest(θ)。
因此,我们可以认为当特征变量x∈Rn+1且有足够的信息时,使用非常大的训练集(即mtrain >> n),其Jtest(θ)的值将非常小,可以保证其算法为低偏差-方差。