经常被问一个问题,训练一个模型需要多少数据?这个问题不能一概而论,
- 取决于问题的复杂度
- 取决于算法的复杂度
一个简单的解决方法是可以看看类似问题别人用了多少数据。但是如果问题比较特殊,可以做一个scalability的测试,看模型在不同大小数据集上的表现,根据这个测试,可以大致确定一个合理的数据需求。(不过这也和数据是否具有多样性有关)
更具体的分析可以参考这篇文章 https://machinelearningmastery.com/much-training-data-required-machine-learning/ 分析得非常好。