引子
七月份参加了一次公司hackathon,虽然早已经内部分享过了,但是对外的到现在才想起来写一下,事先声明,不会提到任何数据,完全是方法。
从评委点评聊起
公司hackathon和kaggle的学生玩具比赛最大的区别是,我们是玩真的,包括需求、痛点、物料,都是real的,说那个点,直接hive拉的。
从点评不难发现,有如下几个关键要素,作为下文的铺垫:
- 指标设定
- AB测试
- 可视化
分工、思路和玩法
我们队的组成,一个全栈,两个BI,一个打杂的我,由于日常工作和题目相关,我实际上主要负责两件事情:
- 把题目的不靠谱需求,解释到一天能做完的程度
- 写ppt
全栈兄弟是用的node+php,前后端一起搞定,直接出可交互的数据可视化界面。
BI兄弟一个ETL并且协调整组工作(不得不说,24小时的数据项目,最佳控场就是ETL角色),一个用python做算法,例如处理源数据的AB测试显著性分析等。
整个过程很简单:
寻找离散程度大的变量
能否找到信息量大的特征,决定了后面的一切。
这期间需要很多沟通工作,和引入外部数据,注意学校比赛往往禁止扩大数据源,个人认为这是非常愚蠢的。数学归纳法
首先猜一个答案,比如说如果变量A提高到某个节点以上,我们认为最后产量可以提高;然后用已有数据验证,循环这个过程。
并且,可视化界面的交互要支持这种循环验证操作。写成几分钟可以讲完的ppt,没了。
顺便一提产出物
我们得到一个可以直接从hive原始数据转化到有两重统计验证的ABT支持的pricing相关的数据可视化界面,对用户没有任何的技能要求--当然中学数学还是要会。
有什么收获
当然了首先是奖品,挺帅的vr眼镜,戴起来觉得周围的人都是战斗力5。
言归正传,玩hackathon的最大收获,本质上是毫无负担地体验了一把“在小有规模的企业里不受束缚的工作”的感觉。
精益数据分析这本书给我唯一留下印象的地方是,他专门开辟一章说了内部创业,提到和外部相比,最大的障碍是第零步:获得授权。
遗憾的是,现实里太多人在第零步做完(或一直要费心维持)的时候已经忘记了初心,所以还是看看没有这一步的hackathon是如何的吧:
在24小时的比赛之前,不必操心任何职能界限地组建了小队;
比赛期间,不必操心话语权地彻底推翻了4次从底层到前台的方案,不必考虑任何技术债务的直接用现成模块搭上线,不必担心大幅度提高效率会造成完成以后的裁员,也不必开无尽的协调会议--反正就四个人,不必应付各种来自第三方的坑--个人认为这是hackathon最爽的地方;
项目完成后,我们畅所欲言把产出、踩坑和玩法一口气倾诉出来,评委竟然一个问题也没有问(预赛一个问题,问的还是题目本身而不是方案,决赛完全没有评委提问),这也是日常工作里无法想象的待遇 - 没有提问怎么能体现存在感呢,对吗。
看到这里不知道你有没有这种感觉:
赢不赢无所谓,玩一把挺爽的。
谢谢阅读。