大概两周前,Google 上线了基于TensorFlow的机器学习速成教程,想必很多人也都看过了,毕竟机器学习和tensorflow都是现在的大热门。正好我也想通过学习tensorflow真正把机器学习学起来,就花了一周的时间把课程和里面的编程练习过了一遍。
以前也好几次试图从各个角度建立机器学习的知识体系,但是都失败了,两三年过去了还只停留在知道一些名词和大概的方法,没有任何深度。不过这次通过Google的课程,还是有一些所得的,大致上罗列如下:
- 不同回归方式的损失函数并不相同,不是所有的情况下都适合用平方和来评估损失。
- 训练模型的时候,除了训练集和测试集,还可以再拆分出验证集(Validation)来帮助减小损失。
- 评估模型质量的除了准确率,还要结合召回率。
- 即使是再复杂的神经网络,如果不加入激活函数,不进行特征组合,输出的结果也是线性的。
- 处理样本的时候,先进行随机化有时非常重要,往往可以避免一些由于事先排列导致的奇怪结果。
- 正则化是一种避免过拟合的重要手段。
- Playground练习中可以改变正则化、隐藏层数等等一切可以看到的项对机器学习和神经网络建立直观的认识。
- 对数据进行合理的分桶处理往往可以得到更好的结果,结果的解释也会更加直观。但并不是所有特征都需要进行分桶。
以上的认识都是非常初步的,毕竟这是我第一次相对深入的学习机器学习。下一步应该会结合一些书再看一遍课程,目标是可以运用tensorflow做一些kaggle上的东西。