1) 不能固步自封
引用某“智者”的一句话:“你签了单,还愁没人做”。确实中国人太多了,码农太多了,只不过一时半会找不到兴趣相投的战友而已。
不能因为自己,团队,公司之前没有任何经验或储备就固步自封,大数据虽然很多年了,AI也不少时间了,但是真正做好做出成绩的也是寥寥无几。再所谓资深涉足大数据5年以上的专家或团队,也不一定能够灵活掌握全部大数据的技能,工具,乃至思维。即使是自带技能包比较强大的专家,也不一定能够解决你现在的问题,需求或项目,因为没有任何一个项目是一样,所有人都需要从零开始。
同时技术的日新月异,没人敢自称专家。等你有积累了,有经验了,项目也就不存在了。等你有能力了,敢说自己是专家了,我估计也已经10-20年了。
所以活在当下,勇敢的闯一把。看看很多你身边的客户和其技术团队,还不是赶着25岁人的“砖”家做大数据,你都至少大他们10岁,就不信同样的项目你花跟他相同的时间,还不能完成跟他一样的效果???但是别忘记了,你有10年的经验,这些是你最宝贵的财富,这些是能够让你比那些25岁的“砖”家做的更“砖”的根本原因。如果他们真的在25岁的时候做的超级棒,早就去阿里了,早就去硅谷了。
2) 你是否真正涉足
不要参加过北大青鸟的培训拿个证书,或者参加过好多大数据沙龙或会议就是真正圈内人。真正的圈内人是用IT技能及分析能力解决一个数据诉求的人。你没有解决过一个只有通过数据科学分析才能发现的信息的案例,永远不要说自己懂大数据,是专家。
3) 被误导的大数据
国内的客户,往往就把大数据要求来要求去做成报表系统了。所以一定要分清真正的End User是Biz的还是Data的User。
如果你面对的是股票金融领域的分析师,虽然其不懂技术,但是他的工作是分析各类数据,各种曲线,各种对比结果,所以一个大数据工具或平台对其是有大大用处的,因为他做的是“分析”,是线性的一系列动作。
如果你面对的是天天看OA的业务分析师,那你就老老实实把最终他想要的报表准备给他就好了,另外记住:“一定要做美观一点!”。因为他做的是“看结果”,是最终态的End。
对于这类用户,你提供的是不是平台,是不是高可用,是不是运算高效,是不是可视化洞察工具,都无关紧要,因为他要的是最终结果,他要的是中国式报表。
4) 数据科学是要时间的,但同时不一定有产出的
不管上述用户是Biz的,还是Data的。如果他们都想偷懒,让你给出一个“wow”的分析结果,那你必须花费时间在高可用及高效的大数据平台上,动用108门武艺去“Discover”那些“wow”。
所以为了高效,你必须使用大数据技术和手段,因为你也不知道要分析哪些数据,被分析的数据要什么样子,只能不断试错,也就是“碰大运”。
但是往往你花费了3个月的交付时间,都不一定能够发现那个“wow”。
所以这样的项目,一定要让客户理解何为大数据,他要的是不是那个“wow”。
5) 报表的钻取不是那么简单
即使是大数据的本色演出,但是最终还是要有报表的输出,为了能够让用户发现和使用更精准的数据,常常用钻取的方式。
所以不管是最后的Fact,还是原始Operational数据,还是Informational的数据,都需要提供颗粒度高的查询接口。
但是这些不能在项目之前来设计,因为你不知道真正那个“wow”是用怎样的方式展示,也不知道“wow”是什么样子呢。
所以要技术手段,要较高的业务分析能力,在“wow”被发现后,那个user明确要的visualization之后,再去提供针对性的接口提供钻取。
6) 中国式报表
中国式的报表不仅仅是“超脱”二维或三维结果,更关键的是“UE/UX”,或者更被一般的非Data领域的销售所误解。你要多美观,数据内容多丰富,界面多炫彩和互动的dashboard,而忽略了数据的本质和信息的输出本质是协助人更进一步了解原始数据,并且进行下一步数据分析。这样的UE/UX就已经封冻的Move Forward的动力。
这也是很多开源报表工具,乃至国外大型BI工具在国内用不好,没市场,还是要囤码农自行开发那些Web报表UI,一个接一个的做UI的关键原因。
老外知道BI的工具是协助其“Move Forward”的,而不是“End”。
7) 数据分级使用是必须的。
如同我之前做的几个项目,原始数据到最终目标使用,都必须经过多次“Staging”的环节。在必要的冗余前提下,提供针对性的有限范围的数据使用。
例如从分布式业务系统,到ODS,再到EDW,而后是Data Mart或Data Lake。
例如报表必须从原始数据,到Stage表系的增量,再到History表系的全量数据,之后是ETL表系的数据智能分析过程,再最后到BI及Reporting需要的Fact层。
所以大数据也需要这样,无关乎接入的数据是结构化数据,还是NoSQL数据,都必须经历至少一个Stage,最好其靠近机构化的存储或媒介的。这样方便在其上进行数据预处理和控制好最后的数据提交。
另外根据数据使用的诉求,应用,用户,场景,必须冗余,不要千篇一律的全部应用,分析,接出等等,均在一个核心全量历史数据库上。不仅仅是单点的问题或性能问题,更关键每个消费者其均会将其业务诉求注入到这个唯一的数据模型上。
8) 数据的管道化处理
数据处理的过程是数据流动的过程,这也就是数据流技术的关键。所以“流”就必须在“管道”中。如何设计管道和数据流转的控制,需要按照不同的项目仔细设计。
同时不要局限于工具,经验,或手段。关键是理清处理的思路和要素。
9) DataOps
大数据平台或AI数据应用系统上,一个关键的IT工作就是DataOps。但是由于其技术的复杂度远远超过DevOps,更关键的是,最终的End User是谁往往都很难搞清楚,所以如何提升自动化,并且将IT管理规则注入Ops之中,很难。索性还不如手工,因为本身数据就大嘛,慢慢来呗。