2019-01-29 大数据处理学习

训练大的数据集存在计算量的问题。假设要训练一个线性回归模型或者是逻辑回归模型，当m是一个亿的时候，用求一亿个项目总和的计算量来计算仅仅一步的梯度下降，这显然效率不高。

在我们训练一个上亿条数据的模型之前，也许可以随机从上亿条的数据集里选个一千条的子集用算法计算，画学习曲线检查小一些的数据集是不是好用。

学习曲线结果示例：

高方差的学习算法（左图）：增加训练集的大小来提高性能

高偏差的学习算法（右图）：增加样本个数不一定会提高太多的性能，多加一些特征或者在你的神经网络里加一些隐藏的单元。以最后会变成高方差的学习算法，然后添加基础设施来改进算法，而不是用多于一千条数据来建模

学习曲线

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文