本文是来自https://zhuanlan.zhihu.com/p/48474076的摘录和体会:
1. 保持机器学习的状态
不能把目光局限在工作中遇到的问题上。阅读技术文献,或者为比赛、辅助项目和开源项目编写代码。
2. 编写单元测试
所有人都在讨论单元测试在数据科学中的重要性,但很少有人花时间去写。Alex Parinov 写了一个很好的[文档](https://albumentations.readthedocs.io/en/latest/writing_tests.html),教你怎么从简单的测试做到复杂的测试。你可以尝试一下,然后再你的学术或 Kaggle ML 流程中添加更多测试。
3. 不要局限于主流问题(信用评分、推荐系统和零售等)
如果你用 DS/ML 来解决那些数学、物理、生物、化学、历史、考古、地理问题或者那些人们很少应用 ML 的问题,你可能会找到下一个属于你的 Purple Cow。
4. 年龄不是问题
Kaggle Grandmaster Evgeny Patekha 40 岁才开始数据科学研究。
Kaggle Grandmaster Alexander Larko 55 岁才开始参加 Kaggle。
5. 一些性能经验
如果想加速硬盘上 jpeg 图像的吞吐速度,我们不应该使用 PIL、skimageand 甚至 OpenCV,而是应该用 libjpeg-turbo 或 PyVips。
6. 发展出一种直觉
为了超越周围的调参侠,你要发展出一种直觉,并获取关于什么方案可行、什么方案不可行的基础知识,从而可以更加智能和高效地探索可能方法的相空间。在这一步,你需要将学习作为实验的一部分。从两个方向学习,首先是像 mlcourse.ai、CS231n、数学、统计学、如何写更好的代码等基础。一般来说,自主学习很难,但从长期来看,这很重要。其次你会在相关问题的论坛上看到很多新术语。记得注意这些术语。尝试激励自己在排行榜中取得更好成绩作为外部动力来学习新事物。但不要在学习和实验之间进行选择,同时做两件事。机器学习是一门应用科学。