一转眼,来到专家工作室已经一年,培训期满,马上就是说再见的时候了。回看这一年,收获颇丰,下面就做一个概括的总结。
一、学习收获
1.绘制了一份地图——形成了对数据分析工作的整体认识
要开展一项工作,首先要对其形成一个整体的认识。如此才能快速把握其中的要点,补充关键的细节。基于王专家的培训讲解,并结合自己阅读的《菜鸟数据分析》《深入浅出数据分析》《大话数据分析》《数据分析师的工作职责是什么》等书籍文章,我总结提炼出了数据分析工作的基本构成。一个完整的数据分析项目,基本可以分成六个步骤,各步骤以及要完成的工作如下:
这六个步骤围绕的一个核心关键词是“相关”,相关既可以是正相关,也可以是负相关。只要找到相关,我们就可以验证假设、预测变化。无论这个过程用的人脑还是机器,本质都是在寻找一系列相关并运用他们。最典型的例子就是那个广为流传的“啤酒与尿布”的例子,虽然真实性待考证,却很好的展现了“相关”这个核心。
2.总结了一套方法——找到了观察数据,分析数据套路
结合对数据分析工作的理解和使用分析工具Tableau的经验,我总结了一套分析方法——通用切分法。它分为两个部分:观察数据的通用视角法、分析数据的切分蛋糕法。
2.1 通用视角法
在接触了一些数据后,我们会发现数据能不能用是无法通过条目的数量和字段的多少来判断的,有的看起来很小,但干净完整,能挖掘出很多信息,有的看似数量很大,字段众多,却有大量残缺和冗余,反而给分析造成了困难。于是我开始思考,当我们拿到一份数据时,如何快速对其作出评估,并找到合适的切入点呢?通用视角法就是我找到的解决方案。
所谓通用视角,就是拿到一份数据时的通用观察方式。它由两个指标构成,完整度和丰富度。
完整度,简单来说就是看每个单元格里是不是都有数,这个可以用空值率来量化。
那如何判断丰富度呢,单纯从字段的数量判断肯定是不行的,经过认真的观察和思考,并结合常见的维度类型,我总结了八个大类,将其命名为“维度八卦”,这八个大类符合MECE原则,无论一份数据中有多少个字段,这些字段都可以被划分到这八个大类中。同时,同类的字段能提取的信息远小于不同类别的字段。所以一份数据覆盖的类别越多,可以构建的组合就越多,也就越容易找到“相关”,也即丰富度越高。
如此,通过空值率和覆盖的类别,就能快速的评估这份数据并找到合适的切入点。
2.2 切分蛋糕法
用过可视化分析工具Tableau的伙伴们肯定知道,Tableau会将数据字段识别为维度或者度量,用各类工具进行可视化分析时,其过程往往是通过维度对度量进行切分,并寻找切分结果之间的关联。这个过程很像切蛋糕。于是我进一步将其提炼成了极简的四个步骤,每步一个问题。有价值的信息就蕴藏在这些个要素的转换与组合中。这四个问题分别是:
通过以上的方法,我们能快速从数据中发现相关,进而提炼出有价值的信息。我也正是利用这套方法,在公司的数据分析技能大赛上取了的较好的成绩。
3.打通了一条管道——掌握数据ETL方法及公司相关工具流程
在掌握了以上认知和方法,并将其应用在实际分析工作中时,我进一步发现,数据分析工作的重难点其实在数据的搜集和处理上。
首先,巧妇难为无米之炊,没有数据搜集,分析无从谈起;
然后,即便是从已有的数据库中取数,若想要观察多个维度之间的关联,就得有数据处理能力将涉及的维度清洗整合到一起,这往往会占到整个分析工作大部分时间;
最后,单个分析报告相当于是某个时间点的快照和结论,业务需要的则往往是实时的监控录像,最好还能放大缩小,进行360度旋转。而若要将一份分析报告转化为一个高质量的仪表板(监控录像),也即实现自动更新、实时交互、多维度观察,则需要将数据的处理过程全部自动化。
综上,我发现数据处理其实是一条“流”。只有连接了源源不断的“水源”,修建了合适的管道,才能持续产生价值信息。实现助力业务,支撑决策的效果。
于是我开始钻研数据ETL方法(Extraction-Transformation-Loading,数据的提取、转换、加载)及公司相关的数据库、工具、流程,最终打通了查找-清洗-提取-转换-调试-上线的全部环节。并利用这一些列方法在DDM上设计上线了【CA每日整车库存跟踪】页面,成功整合了公司的企业库存和社会库存信息,实现了每天自动更新、全方位多角度跟踪库存的效果。
二、心得体悟
数据分析的根本作用是获取价值信息,而信息就是能消除不确定性(熵)的东西。这个过程的就是在减熵,就是在化繁为简,所以应追求简洁,尽可能做到一目了然。
数据分析可以对各项业务产生极大的助力,却不是万能灵药,需要清晰的业务逻辑和可靠的数据来源作为基础,想通过几个分析报告或某个算法模型解决一切问题是不现实的。
-
知识地图比知识本身更重要,教是最好的学。
三、结语
能有机会来学习大数据相关的知识技能,我感到非常的幸运,特别感谢王在清专家的悉心指导,管创中心领导、同事们的帮助,人力资源和制造中心提供的各项支持。
在工作室度过了很充实的一年,接下来我将做一个蒲公英,把所学分享和应用到负责的业务中,如果大家有这方面的需求和问题,期待一起探讨交流。