小码农的碎碎念之数据工程湿

Teenage... sex?!

小码农我长期埋头搬砖,但也定期抬头跟老板吐槽各种不够人啊不够人。去年公司里发生了个有趣的人事和部门重组,本菜鸡居然开始面试开发了——这种事情当然不是重点了——重点是后来又经过了一系列神奇的项目变迁,我们开始急招数据平台相关的工程师,招平台运维招数据工程师招算法工程师各种招~本菜鸡主要面数据和算法相关的筒子啦~然后本碎碎念主要想念一念的就是,通过这段时间的工作加面试经验,我对这个职位慢慢产生的一些理解。当然这里还是粗识浅见,很不全面也不太追求全面,只说几个感触比较深刻的点,偶尔也说得比较偏激,大家随意感受多多包涵。

说起数据工程,好像是最近几年突然就火起来的一个方向。仿佛一夜之间,所有的公司都想从自己的日志里、数据库里、和各种通用社交平台上挖点钱出来——于是乎,一大票统计相关专业的盆友们就嗨起来了:不就是数据分析嘛,我在行!还有另一票的CS盆友们也露出了自信的围笑:跑代码,我们更专业!

在当下的IT浪潮中,数据分析看起来是整个行业的一大新兴主干支柱无疑了,这里统计知识自然是迫切需要,CS的基础也不可或缺;但是,也许是产业发展太快,太多的公司一口气押宝太多在这个方向,让数据工程师这个头衔不小心就沾上了水分。题图引用了一句非常非常出名的话,正说明产业里过于浮躁的一面。

一个产业浮躁的话,最直接的结果是什么?当然是工资开高了——经济学原理嘛~员工们在卖自己,当老板们来不及好好检查员工水平的时候,信息不对等就发生啦,信息不对等的时候,就出现了卖方市场啦,卖方市场的时候,售价就上去啦~有些人的技能点其实并不适合做上量级的数据工程和分析,他们在行业里做的也并不一定和传统的分析员二致,但是就有公司愿意以新兴产业的价码养着,不过估计随着行业慢慢成熟,这样的情况应该会越来越少。

为什么上来就先说这个结果呢?因为传统的分析性工作,在我个人浅见,已经到了非常成熟的阶段,一个岗位空缺开出来,面试官们对应聘者的水平,已经有相对清晰的衡量标准,可竞争的边际优势实在太少太激烈;如果这时一个应聘者只有传统统计背景的话,很可能就必需非常抢眼非常聪明,才能在好的对口岗位上脱颖而出。但是如果在这时候应聘者表示自己能编程,或能用编程方法做数据分析,那情况就大大不同了——由于产业较新,若面试官是业务背景为主的话,他可能就比较难对应聘者说的编程水平做出衡量;而若由一个程序员来面试的话,他也可能出于对团队分析能力的需要,而在应聘者的编程水平考量上降低标准。

这样的结果便造成了一种现象:一些非CS专业背景的人,在MOOC上学了一两门课之后,就可以理直气壮地说自己能编程——但是负责任地说,这样的水平下只能做非常非常简单的原型,对于任何上规模的分析,数据源和服务器给这样的人玩,至少有一个是要跪的。那换一个视角,程序员出身的领队想给自己项目里的数据分析助力,能不能让这样背景的人就只做简单原型,做出了原型再由程序员实现呢?窃以为也是不太可取的——如果真是有大量的数据要分析出点有价值的东西,小原型的一点偏差可能就是一个模型选择的方向错误。而且真要把一个原型生产化的时候,如果里面的算法细节真啃清了之后,做实现的工程师估计统计背景也差不多过关了……(贵厂场景如果真复杂到一定程度的话请忽视我的这段逼逼)

既然说到了做实现的工程师,就正好说一说另外一种背景的人——黑一黑我们CS自己人。现在的MOOC实在是太平(lan)民(da)化(jie)了,尤其拜Andrew Ng所赐,Machine Learning的理论门槛被很好地降低到了一个足够直觉的程度。这些本来都是初衷非常好的事情,但是“无意”之中,有一部分CS的童鞋,在缺少系统编程背景和基础统计背景的支持下,凭着“我会ML了”的自我优越感,大摇大摆地往数据工程师方向找工作。其实这样的选择也是非常危险的。因为本质上一个算法要被真正工程化,还有两关要过:如果结论真是跑一个标准库就出一个够好的结果,那算我没说,但是真正的调优,是要基于对整个推算和证明过程的理解,想通过盯着API文档瞎调试就把结果优化……祝好运,即使调好了也没有系统性的经验提升;另一关就是生产代码的组织和维护——想让一个代码规整习惯良好的码农,俯首贴耳地重构一个长得随性又写意的原型,提供原型的人要么得是大牛,要么得是个美女(而且码农是单身雄性),否则没两天这个代码规整习惯良好的码农可能就跑路了。

说到底我觉得大部分公司里真正招的人才应该是增长黑客,如果这个词听着陌生,可以理解成运营导向的程序员——需要具备把运营需求转化为数据细节的能力,并能有效利用代码,合理地获取数据,再用统计方法验证自己的猜想,最后还要在迭代中改进自己的算法或者系统。不论是“大数据”,或是各种新奇的算法和模型,都只是浮在半空中的噱头,说到底,真正应该在意的,是算法的效果和系统的可维护性,而这两点,正好对应了良好的统计和软件工程基础。

突然想起最近有一个同事跟我说,她以前觉得Python挺好的,Scala学习曲线太高不够亲民,直到最近才悟出原来Scala的学习曲线优势在于,真下了决心要搞数据工程这一行的人,如果连Scala都搞不定,要么是心不够决,要么是智力硬伤;如果对编程和统计都只是半桶水的话,公司业务和线上平台可能都因此而暴露在危险之中——而Python就太容易出结果,让太多人对这个行业误解了……仔细想想还真是有些道理,是我上面这么一大坨梦呓一个不错的总结。

一不小心扯了这么多,其实自己也是在这两个方面努力中的小猿猿一只。如果有人想来新加坡一起成长,或是有大牛来提携本菜鸡,带我装逼带我飞,都请给我简信哟(靠本来一开始没准备发招人广告的……我要找老板说说,跟部门HR美女分工钱)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容