谨防5个陷阱！数据科学家新手快速上道秘诀

姓名：宋子璇

学号：16020199060

转载自：https://zhuanlan.zhihu.com/p/38847030

【嵌牛导读】：科学家岗位是一个技能要求广泛，并不太胜任的一个岗位，实际工作时有许多不同。

【嵌牛鼻子】：数据科学家技能要求

【嵌牛提问】：数据科学家有哪些常见准备陷阱？

【嵌牛正文】：

1. 热衷于 Kaggle 竞赛

参加 Kaggle 竞赛可以锻炼你的数据科学职业技能。如果你懂决策树和神经网络那再好不过了。但实话告诉你吧，数据科学家的实际工作中用不着创建那么多的模型。请记住，一般情况下，你将花费 80％的时间对数据进行预处理，只有剩下的 20％用于构建模型。参加 Kaggle 竞赛在很多方面都会对你很有帮助。但是，参加竞赛的时候，通常数据会被完美地清理干净，所以你可以花很多时间去调整模型。而在现实工作中很少出现这种情况，你必须从不同格式和命名的不同来源收集数据。

不要害怕脏活累活，一定要好好练习数据预处理技能，因为它将占据你 80％的工作时间。比如爬取图像或从 API 收集这些图像数据；从 Genius 收集歌词数据等。准备好解决特定问题所需的数据，然后将其输入你的笔记本并训练机器学习生命周期。精通数据预处理无疑将帮助你成为真正的数据科学家，并对你的公司产生直接影响。

2. 神经网络是“万能金丹”

深度学习模型在计算机视觉或自然语言处理领域优于其他机器学习模型。但他们也有明显的缺点。

神经网络对数据十分依赖。如果样本较少，通常用决策树或逻辑回归模型结果会更好。神经网络还是一个黑匣子。众所周知，它们难以解释和说明。如果产品所有者或管理者开始质疑模型的输出，你必须能够解释清楚模型的原理。这对于传统模型来说更容易一点。

正如 James Le 在这篇优秀文章中所说（https://towardsdatascience.com/a-tour-of-the-top-10-algorithms-for-machine-learning-newbies-dde4edffae11 ），我们有很多很棒的统计学习模型。自学这些知识，了解它们的优缺点，并根据用例的条件应用这些模型。除非你在计算机视觉或自然语音识别专业领域工作，否则很有可能传统机器学习算法才是最好用的模型。你很快就会发现，最简单的模型，如 Logistic 回归，才是最好用的模型。

3. 机器学习是产品

机器学习在过去的十年中都被过度炒作，太多的创业公司吹嘘机器学习能够解决任何存在的问题。

机器学习本身不应该是产品。机器学习是创建满足客户需求的产品的强有力的工具。在客户接收精准商品推荐方面，机器学习可以有所帮助。如果客户需要准确识别图像中的对象，机器学习也有用。企业通过向用户展示有价值的广告而获益，机器学习同样可以提供帮助。

作为数据科学家，你所制定的项目需要以客户的目标为主要优先事项。只有这样，你才能评估机器学习是否会帮到客户。

4. 混淆因果关系

大约 90％的数据是在过去几年中涌现的。随着大数据的出现，机器学习从业者能够接触到大量广泛的数据。有了这么多要评估的数据，学习模型发现随机相关性的概率随之增加。

5. 优化错误的参数

开发机器学习模型有一个敏捷的生命周期。首先，你要定义你的想法和关键参数。其次，你需要创建一个结果的原型。第三，你不断优化参数，直到你对它感到满意。

在构建机器学习模型时，请记住要手动进行错误分析。虽然这个过程乏味并耗力，但它会帮助你在接下来的迭代中有效地改进模型。请参阅吴恩达的深度学习专项课程，以获得更多优化模型的技巧。

要点总结

练习数据管理技能

研究不同模型的优缺点

尽可能简化模型

检查你结论中的因果关系和相关性

优化最有用的参数

年轻数据科学家为公司创造了巨大的价值。他们刚刚学完在线课程，可以立刻为公司提供帮助。他们很多人通常是自学成才，因为很少有大学提供数据科学课程和学位，因此他们对此表现出巨大的决心和好奇心。他们对自己选择的领域充满热情，并渴望了解更多信息。但是，在热情满满的时候也不要盲目学习，谨防以上数据科学家新手会掉落的陷阱，会帮你少走很多弯路。

最后，祝所有人的第一份数据科学工作可以获得成功！

谨防5个陷阱！数据科学家新手快速上道秘诀

谨防5个陷阱！数据科学家新手快速上道秘诀

相关阅读更多精彩内容

友情链接更多精彩内容