公司做了一个和微信类似的内部沟通工具,要求各部门都开一个公众号,写点东西,发发文章,主要是让各部门之间相互了解吧。下面就是我代表部门发的第一篇,将就着看看吧
大数据时代,拥有丰富的数据是相当于有了一座金矿,这一观点已成为行业内的共识,数据的重要性也被很多重要场合被提及。
传统的金矿是有形的,就像矿山一样摆在那里,有着一把铲子,有力气,就可以开始挖矿淘金。
然而,数据的金矿是无形的,公司的数据都静静的躺在Hadoop集群,如果说有实体,那就是一堆不停运转机器,和金子没有半毛钱关系,所以数据的金矿指的就是数据本身,是虚拟的,是一堆比特。
那么,这种虚拟的数据金矿,我们怎么去挖掘,让它产生价值呢?
分三步走
第一步,了解这座金矿
一般挖矿之前,都会探矿,去了解金矿在哪里,含金量多少?数据金矿也一样,公司的数据金矿就躺在Hadoop集群中,如同汪洋大海。
我们需要通过一些方式去了解它。
主要有两种方式:
1,数据图谱
一般数据都是以表格的形式保存的,不同的表格就会有不同的表名以及列名,数据图谱就是公司所有表格的集合。
我们以订单表为例,一天的订单量是几百万的话,每一个订单记录都有几十个到上百个左右的标签,记录了该订单金额、下单地址、下单手机号等信息,那么一天的订单表就是一一个百万行*百余列的表格,数据图谱中记录了几千张类似订单表的信息,每一张表格都可以看作一座金矿。
2,指标图谱
记录了各部门一些常用的数据指标,指标定义,所在的表格以及查询方法,可以看作是是探矿前辈们总结的一些方法和经验。
第二步,会用工具采矿
1,有查询权限
数据是公司宝贵的资产,为了保障数据的安全,防止被随意的开采,那就一定有“守矿人”,数据仓库部门就是我们公司的“守矿人”,他们控制着各种数据查询的权限,要想自己动手去获取数据,就得通过他们这一关,申请数据查询权限都需要通过ACT申请。
2,学会查询方法
如果你通过ACT申请,那么,恭喜你,数据查询权限有了,你离金矿更近了一步。
但是,别开心太早,有了“挖矿权”并不代表你就会挖矿,我们还得学习一些挖矿的方法。
先来看一段代码:
如果你刚好学过SQL查询语言,那么恭喜你,可以开始挖矿了。
如果你之前没接触过(我猜大部分同学应该都没接触过),也没关系,现在开始学也不晚。
推荐一个当年小编学习SQL的网站:w3school(http://www.w3school.com.cn/sql/index.asp)
其实,前两步都是铺垫,第三步才是重点,也是最难的一步
第三步,将金矿提炼成金子
为什么这一步这么难呢?
1,我们往往找不到数据在哪里。
通过数据图谱和指标图谱我们已经知道,小金矿有几千座,小金矿相互之间也有各种关联关系,谁都不知道哪一座含金量是比较高的,不知道哪一座中蕴藏着真正的“金子”?
2,找到了不知道怎么用?
即使我们找到一座或几座含金量很高的金矿,这座金矿还是很大,你只能取你需要的部分来用,那么什么才是你需要的,哪一块的金子是适合你的,只有你自己才知道。
3,用的时候有很多杂质
一般的大数据中往往会混有一些脏数据,就好比金矿中会掺杂一些的沙子,怎么识别这些沙子,将这些沙子过滤,留下金子,也是一门学问,这些技术可以称之为炼金术。
炼金术难说清楚,希望通过这个例子,能让大家更明白一些。
故事是这样的,上海市公安局给到了一个手机号,怀疑该嫌疑人作案已有半年之久,希望能够通过外卖记录协助破案。
看看数据是怎么协助破案的吧
拿到号码之后,
1,通过手机号,在订单记录中找到该用户所有的订单。
2,通过订单经纬度和时间,绘制下单轨迹。
3,分析不同地点的联系,找出不规律的地点,作为第一条线索。
4,分析下单餐厅情况,找到固定下单的几家餐厅,作为第二条线索。
5,分析下单的时间分布情况,是否有异常之处,协助分析作案日期,作为第三条线索。
。。。。。。
这个故事纯属虚构,哈哈哈哈
其实,只要多思考,将场景和数据关联,就会发掘出更多的线索,挖掘出更多的“金子”。
希望更多的人通过数据文化公众号能够了解公司的数据金矿,熟悉挖矿方法,从而发现更多的金子,为公司创造更大的价值。