在一家创业公司做数据业务体验真实丰富, 苦恼而又美丽, 不同于大公司的分工明细. 一切的设计都需要根据资源和需求自己把握, 小到虚拟机, 物理机, 大到框架选型, 业务建模, 各种最基础的技术选型都需要关心. 准备把长期积累的一些信息分享出来, 和大家讨论共同进步.
WHY, 数据系统前面的
现如今国内的互联网环境发展的越来越好,第三方服务提供商越来越多。所以很多情况下我们都有两个选项:接入第三方、自己做。
数据分析这块,有很多第三方服务,大的以百度统计、google analysis为代表,通过嵌入其SDK在前端采集数据,在后台便可以查看相应的统计数据。这种方式的好处是简单、免费,使用非常普及,是很多初创企业的首选。缺点也很明显,一是这样的统计只能分析一些基本的访问量、点击率、活跃用户量,满足基本需求,无法结合业务数据来做深度分析;二是需要在前端很多地方埋点上报,耦合性较强;三是数据存储在第三方的服务器中,无法直接获取到数据源。
新兴的数据分析公司了解过的有GrowingIO, 诸葛IO, 神策数据. 都是优秀的人在做的优秀的公司, 各有特长, 有机会以后细聊, 我还是希望一篇文章的字数控制在1024左右, 不超过2048.
百度统计 vs 数据服务公司, 区别总结下来主要有两点:
一 对于搜索效果来说, 这里只说百度是因为我相信对于国内的大部分的公司来说, 互联网流量的主要来源还是百度, 那我们来说70%以上的流量来源于百度. 下图可以看到, 大量的搜索词无法解析, 这个对于广告投放效果, SEM/SEO的反馈优化都不太好.
百度统计内部分析行为以搜索见长, 同时也可以做转化漏斗分析, 可以对推广的效果有很好的了解, 可以定义ROI, 持续跟踪推广效果. 不断优化SEM. 截图就不上了, 需要马赛克的太多.
二 第二点不同, 相比百度统计, 数据分析公司提供了更灵活全面的数据采集和接入方案, 跟健全的多维分析方法, 以及更更全面的业务指标分析, 包括留存(活跃度), 漏斗(转化路径)分析等等. 这一点上其实可以看到百度统计也在不断引入新的功能, 新兴公司如果保持上述优势是个问题, 可能需要提供更深入的saas服务, 与客户的业务数据对接?
简单分析了第三方数据服务的功能和特点. 对于我们的业务来说, 我们有复杂的内部微服务集群, mcu服务集群, 直播服务集群, 信令 323接入体系, 以及定位和功能不尽相同的设备终端. 同时我们也需要运营自己的网站引流. 这么多的业务数据需要收集分析和监控, 模型的设计也很复杂, 而且要求经常变动, 这决定了我们不可能完全依赖于三方给我们提供数据分析服务.
所以, 我们必然要上自己的分析系统, 但合理的使用第三方服务还是必要的, 所以目前决定的是终端与网站等和UI操作相关的行为分析使用第三方服务, 其中留存和活跃分析提供参考信息.
以上是为什么我们需要自己做数据分析. 也说一些官话, 随着移动互联网的发展和大数据思维的普及, 越来越多的创业者, 投资人开始重视数据的作用, 而不再是随便拍脑袋. “数据驱动决策”, “精准化运营”, “产品快速迭代”这些概念被越来越多的人提出和使用, 其背后都离不开精准的数据分析. 对于大多数互联网创业公司来说, 其背后没有强大的资源与财主支撑, 如何在有限的人力, 物力下快速摸索, 少走弯路是至关重要的, 而基于“数据驱动”来做决策、运营与产品将起到一个关键的作用.
WHAT
我们并不是一个纯粹的互联网公司, 甚至可以说目前并不是, 但其实我们有非常丰富立体的数据, 这块的财富我相信随着业务量的增长他的价值是不可估量的. 小厂做数据分析, 这个度很重要, 能做的事情很多, 尤其是面对着这么美丽的信息, 不过毕竟资源有限, 需要认真考虑那些事情是有价值的, 是可落地的. 其实即使对大厂来说, 数据分析方面的优秀实践好像也仅仅是我们了解到的标定特征, 推荐方面, 而且有些很高大的推荐算法所产出的效果可能并没有那么美丽.
对于从零开始的创业公司, 数据的需求早期可能集中在各种报表的展示, 包括基本的运营情况, 包括各种产品使用的统计情况, 这个其实很重要, 让大家看到数据很重要. 对事物的认识其实也是从简单开始, 大家熟悉了数据之后, 必然会有很多OLAP的分析需求. 所谓数据分析师会了解更多的如何发现我们所不知道的知识的能力, 但其实每个深刻了解业务的人都可以是个好的"分析师", 需要给大家这个机会和途径去分析.
数据的处理其实是个标准化的处理流程, 文章开头的流程我觉得已经涵盖的很清楚, 包括数据的采集, 传输处理, 分析及可视化. 做这个系统之前一掉要有充分的心里准备, 因为数据源, 基础数据的处理工作可能会占用你70% ~ 80%的时间, 而且可能很枯燥和烦人, 但是这个工作是一切的基础, 必须认真对待, 包括数据的格式, 命名标准, 数据的采集方式, 数据的业务级别定义等等. 而且有个很重要的部分是元数据的管理, 随着业务的发展, 这块会越来越重要, 所以即使初期不知道怎么做, 也需要心心念.
这个图是曾经探索学习的阶段, 神策数据的桑文锋大牛课上的一张图, 抱歉直接用了.
HOW
实现需要结合自身的业务,做的更灵活,尽早摸索数据业务,逐步建立相应的数据系统。当然,自己做并不代表是造轮子,创业公司需要充分利用开源框架来实现相应的功能。
关于如何这个topic, 其实应该好好讲讲我自己的学习历程, 因为我并不是这个领域的, 基本上零基础, 当初在用mongo的mapreduce写大量case的时候, 我连SQL都还不太会写. 这个过程真的是非常的辛苦, 数据这个领域无论是工程方向, 还是分析挖掘方向, 即便是可视化都有很多的美的东西需要去学习和体会.
文章开头其实是我们现在已经基本建立起来的, 以后会详细展开. [2048]