我在专家工作室学到了什么——王在清大数据专家工作室结训总结

一转眼,来到专家工作室已经一年,培训期满,马上就是说再见的时候了。回看这一年,收获颇丰,下面就做一个概括的总结。

一、学习收获

1.绘制了一份地图——形成了对数据分析工作的整体认识

要开展一项工作,首先要对其形成一个整体的认识。如此才能快速把握其中的要点,补充关键的细节。基于王专家的培训讲解,并结合自己阅读的《菜鸟数据分析》《深入浅出数据分析》《大话数据分析》《数据分析师的工作职责是什么》等书籍文章,我总结提炼出了数据分析工作的基本构成。一个完整的数据分析项目,基本可以分成六个步骤,各步骤以及要完成的工作如下:


数据分析项目的6个步骤

这六个步骤围绕的一个核心关键词是“相关”,相关既可以是正相关,也可以是负相关。只要找到相关,我们就可以验证假设、预测变化。无论这个过程用的人脑还是机器,本质都是在寻找一系列相关并运用他们。最典型的例子就是那个广为流传的“啤酒与尿布”的例子,虽然真实性待考证,却很好的展现了“相关”这个核心。


2.总结了一套方法——找到了观察数据,分析数据套路

结合对数据分析工作的理解和使用分析工具Tableau的经验,我总结了一套分析方法——通用切分法。它分为两个部分:观察数据的通用视角法、分析数据的切分蛋糕法。

2.1 通用视角法

在接触了一些数据后,我们会发现数据能不能用是无法通过条目的数量和字段的多少来判断的,有的看起来很小,但干净完整,能挖掘出很多信息,有的看似数量很大,字段众多,却有大量残缺和冗余,反而给分析造成了困难。于是我开始思考,当我们拿到一份数据时,如何快速对其作出评估,并找到合适的切入点呢?通用视角法就是我找到的解决方案。
所谓通用视角,就是拿到一份数据时的通用观察方式。它由两个指标构成,完整度和丰富度。
完整度,简单来说就是看每个单元格里是不是都有数,这个可以用空值率来量化。
那如何判断丰富度呢,单纯从字段的数量判断肯定是不行的,经过认真的观察和思考,并结合常见的维度类型,我总结了八个大类,将其命名为“维度八卦”,这八个大类符合MECE原则,无论一份数据中有多少个字段,这些字段都可以被划分到这八个大类中。同时,同类的字段能提取的信息远小于不同类别的字段。所以一份数据覆盖的类别越多,可以构建的组合就越多,也就越容易找到“相关”,也即丰富度越高。
如此,通过空值率和覆盖的类别,就能快速的评估这份数据并找到合适的切入点。

维度八卦
2.2 切分蛋糕法

用过可视化分析工具Tableau的伙伴们肯定知道,Tableau会将数据字段识别为维度或者度量,用各类工具进行可视化分析时,其过程往往是通过维度对度量进行切分,并寻找切分结果之间的关联。这个过程很像切蛋糕。于是我进一步将其提炼成了极简的四个步骤,每步一个问题。有价值的信息就蕴藏在这些个要素的转换与组合中。这四个问题分别是:


通过以上的方法,我们能快速从数据中发现相关,进而提炼出有价值的信息。我也正是利用这套方法,在公司的数据分析技能大赛上取了的较好的成绩。


应用示例

3.打通了一条管道——掌握数据ETL方法及公司相关工具流程

在掌握了以上认知和方法,并将其应用在实际分析工作中时,我进一步发现,数据分析工作的重难点其实在数据的搜集和处理上。
首先,巧妇难为无米之炊,没有数据搜集,分析无从谈起;
然后,即便是从已有的数据库中取数,若想要观察多个维度之间的关联,就得有数据处理能力将涉及的维度清洗整合到一起,这往往会占到整个分析工作大部分时间;
最后,单个分析报告相当于是某个时间点的快照和结论,业务需要的则往往是实时的监控录像,最好还能放大缩小,进行360度旋转。而若要将一份分析报告转化为一个高质量的仪表板(监控录像),也即实现自动更新、实时交互、多维度观察,则需要将数据的处理过程全部自动化。
综上,我发现数据处理其实是一条“流”。只有连接了源源不断的“水源”,修建了合适的管道,才能持续产生价值信息。实现助力业务,支撑决策的效果。


于是我开始钻研数据ETL方法(Extraction-Transformation-Loading,数据的提取、转换、加载)及公司相关的数据库、工具、流程,最终打通了查找-清洗-提取-转换-调试-上线的全部环节。并利用这一些列方法在DDM上设计上线了【CA每日整车库存跟踪】页面,成功整合了公司的企业库存和社会库存信息,实现了每天自动更新、全方位多角度跟踪库存的效果。


应用场景示例

二、心得体悟

  • 数据分析的根本作用是获取价值信息,而信息就是能消除不确定性(熵)的东西。这个过程的就是在减熵,就是在化繁为简,所以应追求简洁,尽可能做到一目了然

  • 数据分析可以对各项业务产生极大的助力,却不是万能灵药,需要清晰的业务逻辑可靠的数据来源作为基础,想通过几个分析报告或某个算法模型解决一切问题是不现实的。

  • 知识地图比知识本身更重要,教是最好的学

    知识地图:相关工具软件与背景知识

三、结语

能有机会来学习大数据相关的知识技能,我感到非常的幸运,特别感谢王在清专家的悉心指导,管创中心领导、同事们的帮助,人力资源和制造中心提供的各项支持。
在工作室度过了很充实的一年,接下来我将做一个蒲公英,把所学分享和应用到负责的业务中,如果大家有这方面的需求和问题,期待一起探讨交流。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容

  • Sharding的基本思想其实就是采用分治的思想,要把一个数据库切分成多个部分放到不同的数据库(server)上,...
    jiangmo阅读 9,388评论 0 7
  • Zookeeper用于集群主备切换。 YARN让集群具备更好的扩展性。 Spark没有存储能力。 Spark的Ma...
    Yobhel阅读 7,261评论 0 34
  • MySQL性能调优 索引 索引是什么 官方介绍索引是帮助MySQL高效获取数据的数据结构。笔者理解索引相当于一本书...
    陈小陌丿阅读 1,402评论 0 4
  • 云安全联盟大数据工作组发布 译者:李毅 中国惠普大学资深培训专家 ** 摘要 **在本文中,我们提出了一个大数据...
    Leo_Liyi阅读 6,266评论 0 22
  • 技能清单 听课笔记
    桂玲2018阅读 122评论 0 2