继《普通程序员,如何转型大数据相关方向?》和《给大数据入行者的,建议和书单
》之后,特此摘述几个大数据从业者的职场履历!
1
彭先生 亚马逊-机器学习研究员、数据科学家
见证了大数据从炙手可热的全过程
【履历】
2010年-2012年,Google实习生
2012年-2017年,博士毕业,入职亚马逊担任机器学习研究员和数据科学家。
【见闻】
当年一起从事数据研究(数据挖掘)的同事,都去哪儿了?
A. 约50%转为纯程序员:数据科学家的价值,体现非常曲折。牛逼的大有人在,因心累而转为纯程序员的也在所难免,因为程序员的选择面很宽,高者其薪资也可能高过数据科学家。
B. 约40%转为PM:述者原话“数据科学家免不了忽悠,忽悠多了失去了自己,有的就变成了会写SQL的产品经理”,可采纳度自行揣度~
C. 约10%转为全栈数据科学家:在数据科学方面混得比较久的,多转为了全栈科学家。全栈化既可以往底层通程序员、系统构架,也可以往高处通管理层,大侃价值观,把握全局,做的东西也更容易落地;但劳神费力同样在所难免。
总结:数据科学家就像是咨询公司一样,不是特别适合作为终身职业。若早期入行,可能风光无限;但长远来讲,价值的落地、测量都比较困难。
【经验】
1)机器学习技术方面
模型容易获得,但经验难得(无论做研究,还是做业务,都是如此)。
模型方面,不外乎五大生态系统:
A. Python + Scikit Learn,最适合生产环境和数据研究混用;
B. Spark + MLLib;
C. Java + Weka ;
D. TensorFlow等深度学习生态;
E. 微软等内部重造轮子生态
以上五种生态,除了最后一个外,其余都容易入门(有基本的数学、统计知识,看看github源代码等)。但事关参数调试和具体成果,则要视研究领域和上下游情况而定。不过,系统工具方面的快速发展,给新入门者提供了许多便利之处,如Elasticsearch + Logstash + Kibana (ELK) 、Docker、 Kubernetes等都非常好用,同时部署门槛降低,部署速度得到提升。
经验:Docker出现以后,如果一件课题的代码超过了2000行,就说明你做错了。
2)管理方面
跟对老板/部门,尤其是老板,上升速度会比较快。而事实情况是,虽然大数据很火,但有上升机会的部门却不多,例如做risk和预测的部门,往往比较苦逼。
2
某数据分析(挖掘)工程师
三年数据分析从业经验
1)数据分析也好数据挖掘也好,其实都有套路;
如,流失分析:从用户C端转化率漏斗找漏洞,通过多维组合分析找原因,并用abtest验证原因,最后分类识别深挖潜在目标用户。
2)东西变化很快,但实用的没有那么多;
算法每年更新,但行业里面通用的东西变化并不是很大
3)入参选择很困难
能走多远,不在于算法学的有多好,而在于对所处行业的理解深度。
3
XX(转行至数据挖掘)
三年数据挖掘从业经验
1)大部分数据挖掘工程师,偏算法应用,但不执于算法;
互联网领域,大部分数据挖掘工程师偏算法应用,旨在用算法提升业务。
大数据挖掘门槛不会很高:数据处理能力为必须;算法方面,懂些理论,知道能解决什么问题,参数怎么调,就能入门了(当然,懂得算法理论细节最好)。
然而,算法牛逼不一定能做出牛逼的项目,算法不牛逼也不一定做不出牛逼的项目。
2)跟着业务拓展算法;
鉴于业务发展阶段问题和个人实力问题,并没有很多机会让你接触到牛逼哄哄的技术,跟着工作拓展算法(广告dmp系统等)更加可行。
3)奋斗方向:用数据和算法驱动业务增长;
通过数据和算法驱动业务的增长。
如从事广告,便期望对互联网广告业务有深入了解和实践。比如实践上,目前做的广告dmp系统大部分是离线计算,希望将来业务发展能做dsp系统,对接ssp参与广告竞价。
4)给新入行者的建议
如果你数学功底和算法理论足够强大,可以考虑偏算法理论研究和算法平台开发的岗位,不然就考虑偏算法应用的岗位,做一位增长黑客。