在创业公司做数据

想到啥写点儿啥,关于公司,关于数据,关于团队的一些想法,看法。

在创业公司工作是一件很有意思的事情,有乐趣也有挑战。
严格来说,这次是第2次在创业公司了,先说说第一次那短暂的经历吧。

互联网金融
故事发生在2015年,还记得那是个流火的七月,我们一行三人,顶着热浪走进了一栋大厦。跟未来的老板聊了一下午,主要是听他说,说公司的现状,说这个行业,说着未来的愿景,说着上市计划。“风口行业,可以试试”,“有实体产业,而且是大集团,可以”。就这样,我们入职了这家互联网金融公司-东虹桥金融在线。
集团是做电缆起家的,我们这家互联网金融公司也是依托于一家小贷公司,做了有5年了,我们属于小贷公司的线上平台,平台也是刚刚开始。我们入职后开始着手业务的梳理和数据平台的搭建,数据量很小,目前业务也简单,为了快,我们直接就使用MySQL来当数仓了,其中一个同事着手搭建Hadoop平台,后期迁移到Hive上。
以前对金融行业不了解,对这种互联网金融更是一脸懵,空的时候就研究下,发现我们公司的收益率由25%+,投资后还送加息券什么的。要知道那时候余额宝的收益率也就是8%、9%左右,这个让我很是震惊,投点儿?不敢,太高了,不投?这个羊毛不薅,对不起自己啊。
其实,一开始我对这个行业不太信任,收益太高了,高的吓人,后来持续关注了一下市场,和我们公司标的的投资情况,都是很快就满标了,还款也是按时的。差不多一个月后,我也开始薅羊毛了,羊毛党这个词儿好像就是这个时候出来的吧。

回来说重点,说说数据。对于当时的平台,只有两部分数据,1个是用户行为数据,1个是用户交易数据,所以我们也只做了:

  • 平台指标梳理,明确指标定义
  • 梳理构建基本维度:日期维度、区域维度、性别、年龄维度、投资金额段维度、投资次数维度、渠道维度
  • 构建基本宽表
  • 用户来源分析、活动效果分析、用户画像、用户积分模型
  • 基于Echarts搭建数据可视化平台

在这家公司其实算是从零开始,搭建了基础的数仓模型,和一个可视化平台,关于分析也就是搞了个用户画像,然后基于画像输出了一个用户积分模型,给用户分级用的。
这家公司的创业氛围不明显,可能是依托集团的原因吧。当然,我们还会额外兼职些别的任务,公司是主打“互联网金融+电影”,所以有时候需要地推宣传,我们也会被派些任务。公司不仅投资拍电影,还搞演唱会,当时有很多的标的都是投资送电影票,送演唱会门票。
可惜啊,就是电影的原因,出现了问题,16年《叶问三》上映了,公司投资了,结果爆出来虚假票房,这是个导火线吧,后来集团下面的一家线下理财公司爆出来资金链的问题,出现大面积挤兑,烧着烧着,就烧到我们公司了,再然后,公司就凉了,再然后就开始裁员了,然后我们组就拜拜了。
历时9个月左右,互联网金融的工作截止,感觉以后不会再去这个行业了,金融这个东西,水太深,要去就去大公司,小的真心不推荐。

新零售

2015年是互联网金融的风口,2017年是新零售的风口,最明显的是无人货架的风口,一批一批无人货架公司站起来。
在这一年,我又走进了一家新零售公司“猩便利”,高管团队是阿里的、美团点评的,一出生就带着明星光环。记得是10月份来面试,当时公司还是在Wework,办公环境偏开放式的,很有趣,那没有前台,只有一个大吧台,第一次去有点儿蒙,这是个啥公司,给HR打个电话,就在沙发那等,看上班的员工来来往往的,端着咖啡在吧台讨论,热火朝天,欣欣向荣。

然后我就来这上班了。公司主营业务是“无人货架+无人便利店”,走的是即时消费。刚去的时候,数据组有几个分析师,本来也是奔着分析师岗位去的,但是说让我先把数仓搞搞,出于对这个行业,对这家公司感兴趣,依然来了,着手数据平台的整体搭建。

  • 数仓从零开始
    离线平台使用的是阿里云的Maxcompute,直接可以快速使用,省去了自己搭建平台的成本。当时公司的业务发展很快,9个门店+几万台货架,大大小小有几十个系统。
    数仓这个东西一方面是业务理解,一方面是建模思想。
面临的挑战

针对这些挑战,我们考虑相应的解决方案,现在回过头去想想,很多地方当时做的不太好:

  1. 规范制定的太少,推动没有盯住
    当时只是简单的制定了数仓的分层结构,任务和表的命名规则,任务开发规则等,还是有很大的灵活性,导致后期团队人员越来越多,全都自由发挥了;加上后期没有对每个人的开发内容做审核,更加剧了这种情况。

项目初期,定制详尽的规范,不断完善,并且制定相应的开发流程,做好审核工作。当然,这回耗费一定的时间成本,但绝对是值得的,不然后期项目一定混乱不堪,重构的成本更高。

  1. 没有忍心对历史项目进行重构
    刚去的时候,数据分析师已经在做一些常规的取数工作,一些报表开发工作了,有一些日常的任务和表。开始想着历史的就算了,新的按照规范来就好,结果导致后来这些项目还不断的在使用,类似不符合规范的表也依然会出现(监督审核工作不到位)。

在和业务方沟通了通知机制,催他们完善表结构信息、ER模型,梳理完业务后,数仓模型也逐步搭起来。因为人手的问题(就我一个了解数仓),其他都是些分析师,所以我带着几个分析师一起搭建模型。
分析团队当时是这样的,按照业务线分成了货架团队和门店团队,老大的意思是让我分别花几周的时间带他们做。
一边熟悉业务,一边带着几个分析师搞dwd层,就是些明细宽表。记得老大总问我:“业务频繁变动,数仓该怎么做才能保持稳定”,是,创业公司嘛,业务迭代是快,老版本的表结构、业务流程刚梳理清楚,新版本要上线了,经常出现这种情况。
处在业务发展扩张期,这种情况很常见,所以我说的是,尽量只搭建相对稳定的模型,dwd层可以多处理些,集市层应用层可以临时处理。

按照我以前的经验来看,数仓的搭建流程是这样的:

  • 梳理当前业务,梳理日常出数据的指标、报表,输出指标字典、维度字典
  • 梳理库表模型,最先搭建可以输出上面这些指标和报表的模型,然后进行数据校验,切换使用的表
  • 完善数仓模型

刚去的时候,我就说要梳理个指标字典,被否了,结果到现在也没有一个完整版的全公司指标。
第一版的数仓就在这个跌跌撞撞,不断摸索中进行着,后面团队进行了拆分,拆成了分析组和平台组,也招了几个了解数仓的人。

中间一段时间,我们有点儿走偏,为了配合做数据产品,我们花了很多的时间做数据需求,主要任务分布:

主要任务

我们就在完成这些需求的同时去优化数仓的表,这个过程很累,每天都很忙,忙的要死啊。由于团队分开了,老大不同,前面提到的问题更加剧了:

  • 分析团队又搞自己的规范,和之前有些不一样,并且没有按照一开始的设计进行开发,对新员工的培训不彻底,导致平台的表越来越乱
  • 团队内部沟通也欠缺,大家都在忙,每个人对接不同的业务团队,每人一块,很多人踩的坑没有及时分享,好多人重复踩;做的事情输出的模型也没有分享,导致每个人都有一套自己的逻辑。
    这其实陷入了一个怪圈,恶性循环的怪圈,团队内部一定要多分享、多沟通
    ......

公司的发展,中间也出现过问题,就无人货架来说,最重要的就是“盗损”,开放式的架子,付款全靠个人自觉,这个本身就是不靠谱的,17年为了铺量,在几十个城市有铺货架,倒损情况非常严重。17年大量无人货架公司涌入,在18年初就出现了倒闭潮,这个时间窗口太快了。18年也是资本寒冬,年末各种公司裁员,我们也不例外。

总结

在创业公司做数据,还是很有趣的,可以接触到不同经历的人,学到很多的东西;
有试错的机会,可以放开手脚去做,只要你有想法;
可以锻炼自己的执行力、主动性;
有挑战,有机遇。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容

  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,916评论 2 89
  • AI+金融技术分层解构 从分层的视角来看,AI+金融技术可分为基础层、技术层和应用层三个层面。作为AI在金融领域落...
    shenciyou阅读 2,806评论 1 5
  • 每天进步一点点点点点点点点点点点点点点点点点点点点点点点点点点点点点点~~从开始只能写几句话、模仿别人的观点,到现...
    一个帅气的名字呀阅读 18,069评论 4 31
  • 背景介绍 定义 照国际权威机构金融稳定理事会(FSB)的定义,金融科技是指技术带来的金融创新,它能创造新的模式、业...
    shenciyou阅读 7,505评论 0 6
  • 三四月为什么很多人选择夜跑? 是对身材的不满意? 还是对健康的追求? 在大学,也有人夜跑,但是却渴望偶遇,希望能遇...
    眼镜下的眼睛阅读 118评论 0 4