十年•杭研大咖说|余利华:网易数据科学实践与未来挑战-网易云博客 http://blog.163yun.com/archives/659
您本人在数据基础设施做了很多工作,还曾负责视频技术研发,现在又做数据科学,能否分享如何快速进入一个相对陌生的技术领域并达到快速精通的程度?
余利华:其实要在一个陌生的领域做到精通是需要花很长时间,无法做到很“快速”。不过的确也有一些技巧可以参考:
如果身边有一位领域内的专家随时指点一二,就有事功倍的效果。
看一些领域内权威著作,可以大体了解领域全貌。
在比较关注的关键问题上,要去追踪最新的论文和权威专家。
了解领域内领先的产品或者开源软件。
参与领域内实际项目研发。
回到数据科学领域,您有哪些权威著作推荐?如何在众多论文中选挑选论文精读?还有您关注的哪些优秀的开源软件?
余利华:权威的著作,如图灵奖获得者Michael Stonebreaker编辑的红宝书Readings in Database Systems(http://www.redbook.io/),可以作为综述性的入门读物。
论文方面,我倾向于挑选一些比较实用的成果,比如Google等大公司发表的,在内部有广泛实用的,发表在OSDI、SOSP、VLDB、FAST等计算机顶级会议/期刊上的;其次,要关注开源软件对应的论文,要用好这些软件,必须了解这些技术背后的原理;还可以追踪一些比较好的作者,如Michael Stonebreaker、Jeffery Dean(Google大神)、James Hamilton(AWS副总裁)。
在大数据系统的领域,过去十年Google的影响是比较大的,从HDFS、MapReduce、BigTable到最新的DataFlow,都值得关注。
优秀的开源软件现在有很多,大数据平台领域,如社区比较活跃的Spark、后起之秀Flink。我们现在如果要开发新的系统,往往也是基于一些开源软件来做。