2019-01-29 大数据处理学习

训练大的数据集存在计算量的问题。假设要训练一个线性回归模型或者是逻辑回归模型, 当m是一个亿的时候, 用求一亿个项目总和的计算量来计算仅仅一步的梯度下降,这显然效率不高。

在我们训练一个上亿条数据的模型之前,也许可以随机从上亿条的数据集里选个一千条的子集用算法计算,画学习曲线检查小一些的数据集是不是好用。

学习曲线结果示例:

高方差的学习算法(左图):增加训练集的大小来提高性能

高偏差的学习算法(右图):增加样本个数不一定会提高太多的性能,多加一些特征或者在你的神经网络里加一些隐藏的单元。以最后会变成高方差的学习算法,然后添加基础设施来改进算法,而不是用多于一千条数据来建模

学习曲线
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容