古装剧似乎是我们每个人从小到大都会或多或少看过的故事题材。
你怀念还珠格格么?记得汉武大帝么?看过甄嬛传么?听说过各种以“宫”字命名的古装剧么?最近在追延禧攻略么?和我一样盼望着如懿传的出现么?
哈哈哈哈哈哈哈哈哈哈,相信你和我一样,对和自己完全没关系的古代皇室都有着或多或少的了解。
好了好了,我知道有人要吐槽这些宫斗剧无聊了,没有营养,影响学习,耽误工作时间。。。blah blah blah。。。
如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群:458数字345数字782,欢迎添加,私信管理员,了解课程介绍,获取学习资源
那如果我问你,“你有没有想过如果皇帝是一位数据科学家/数据分析师,他会将身边的哪些资源当作数据来研究分析?”
没错!今天,我们就一起来看看我们常常提到的一些常有数据的分类?顺便来开开脑洞,想想他们都是圣上的谁?
## Spatiotemporal Data 地理时空数据 ##
说到地理时空数据,这种数据的意思其实......就是字面意思啦。我们将 spatiotemporal 这个词分开看,分别是 spatio -- 空间的 和 temporal -- 当时的/实时的。
所谓空间数据,就是通过描述很多复杂的多线路因素来定义出一个大的个体,举个栗子🌰,我们可以通过空间数据所记录的车辆轨迹来描绘出一个城市的大致形状。
所谓实时数据,他肯定是记录了一个时戳日期和时间的数据;在记录时间的时候,有两种时间,一种叫做 Valid Time 真实时间,就是我们日常生活中用到的时间;另一种叫做 Transaction Time 事务处理时间,这个具体是指这个数据被记录入相应数据库的时间。
所以这个 Spatiotemporal Data 主要是描述了同一个事件的时间和地点,并且这个事件可以展示出在同一个物理地点经过时间的变化一些现象所发生的变化。
那么一般可以被当作这个数据的角色会是谁呢?
太皇太后!
这样一个人物,她经历了朝代更替,拥有了身份变化。从她身上可以看到同一个物理地点经过时间长河洗礼后发生的变化。这是别的角色无法代替的。在时间点上,所以真实时间,就是我们说的公元多少多少年,沿用至今,大家都懂;而所谓的事务处理时间,其实就是我们说的某某皇帝年间多少多少年。
代表人物:窦太后 -- 汉文帝的夫人,汉景帝的母亲,汉武帝的祖母。
## Dark Data 黑暗数据 ##
黑暗数据,并不是说这个数据会毒害你的系统。只是它们是一些永不见天日的数据。它们是不会被用到的一些数据。这些数据通常是和别的数据一样被收集,处理和储存的,只是由于某些原因,它们从未被调用。
那么一般可以被当作这个数据的角色会是谁呢?
被打入冷宫的妃子!
她们和别的妃子一样,被选入宫,伺候皇上,因为某些或许你知道或许你不知道的原因,她们被打入冷宫后,一辈子都可能不会再见天日。
代表人物:祺贵人(来自后宫·甄嬛传)
收入数据库时:
不被调用后:
## Real Time Data 实时数据 ##
实时数据是现阶段数据分析里最被人关注的一类。很多数据学家都在围绕实时数据做出自己的分析和技术的研究。
有些人说 real time 这个形容词其实是不恰当的,因为数据最快的速度是赶上在交流它的速度,而它永远无法超越自己。(我知道这句话听上去像一个哲学定义,但你懂我的意思吧?举个类比的栗子🌰,比如我们说在看世界杯实时直播,这个定义是不准确的,因为即便是实时直播,这个实时是要加上中间的传播时间的,不可能和真实世界一样快。)
不过!这并不能影响它是很有价值的数据的至尊地位。业内都认定实时数据是最能发现客户与品牌之间关联的致命法宝。
那么一般可以被当作这个数据的角色会是谁呢?
宠妃!
所谓宠妃,自然就是皇上最宠爱的妃子了。
这个“宠”字,你可以说它是不恰当的,因为皇帝作为拥有后宫佳丽三千万有无数子民的一国之君,在遇到很危机的情况下肯定还是会更优先考虑自己的情况。换句话说,即便你是圣上的宠妃,他“宠”自己胜过宠你,所以宠字不一定恰当。
然后通常呢,通过宠妃,我们能分析出 顾客 -- 子民 与 品牌 -- 皇室口碑 之间的联系。为什么呢?因为作为天下苍生百姓,不可能接触的到后宫的这些佳丽宠妃。那他们如何判断这个妃子好不好?如果皇室在他们心中心系苍生,负责任,很博爱,那么这位宠妃,哪怕独吞皇上一人宠爱,舆论导向也会偏向好的一边。相反,即便这位宠妃很爱这位皇帝,皇帝也很爱她。但是如果皇室形象就是很差,民不聊生,那抱歉,这位红颜祸水,我们就要在心里暗自诅咒你。
代表人物
杨贵妃 【杨玉环】
熹贵妃 【甄嬛】
## Genomics Data 基因数据 ##
听这个名字,你就想到了生物医药吧?所谓基因数据,就是通过分析人的基因来产生的数据。这一类数据其实非常非常有用,未开发的部分其实很多,研究表明,到2020年基因数据的量会比 twitter 和 youtube 所产生的数据都要多。
然而,这类数据并不好开发,为什么?
一来是因为我们没有足够的技术去在不损害原数据库并且做好一切隐私保护的情况下开发这一类数据。二来是这一些数据比我们想象的要复杂。所以路漫漫其修远兮,数据的路还有很远要走
那么一般可以被当作这个数据的角色会是谁呢?
异域来的妃子!
她们是很重要的人,一般都身负着一些政治使命。你从她身上能够获得的信息或许可以左右政局。然而,她不像普通的妃子那么好控制。由于一些原因,或许她会让你琢磨不透。
代表人物
香妃 【含香】
比如你作为皇帝,你可能也难以分析出她为什么可以吸引 3D蝴蝶 。。。
## Operational Data 运营数据 ##
这个数据就非常厉害了。很无敌的数据。任何公司,组织,企业,都有大数据,都有自己的指标,有具体某些事件的数据,也有一些程序或者第三方得到的数据。那么要如何把这些数据变成有意义,各部门都能理解,并且能给决策者高质量意见的商业决策呢?这时候,我们就需要运营数据来大展身手了。通常运营数据是拿来定义现有政策与商业目标是否匹配的一个重要信息。
你可能要问我到底何为运营数据?狭义的来说,就是影响这个团体/组织(organization)实际运营,各部门都参与并看得懂的数据。广义的来说,运营数据是一种思维模式,将各种数据转变为推动组织发展的可被理解的数据,让各部门发现自己在驱动业务增长上可以参考的一些数据。
说到这,我想你大概也明白了。运营数据的存在像一个贯穿整个企业的关键人物,举一个栗子🌰,它像是狼人杀中的预言家,所有人都知道自己基于预言家要做的事情,好人知道要保护他,坏人知道要弄死他,各个组织都找到了自己运营的关键信息。
那么一般可以被当作这个数据的角色会是谁呢?
太子!
太子这个人的身份非常神奇,她是后宫皇后/重要妃子的儿子,是皇上的最重用的儿子,有一个太傅通常是重要的文官,有一个发小自小陪他保护他,通常长大以后会是很重要的武官。他使整个政治中可以让所有人理解的一个重要人物。从他身上,各方人物都能看到自己所需要的动向与指导方向。
代表人物就不列举了
他们
要么因为太背早逝,
要么因为太蠢被废,
要没因为兄弟太厉害被杀,
要么成为了皇帝。
## Open Data 开源数据 ##
何为开源数据?其实很好理解,就是向所有人免费开放的数据,并且对于翻版翻用此数据没有版权,专利或者其他限制。这种数据在什么时候有用呢?在它以一种人可以理解的格式被放出来的时候才有用。这就要求开源数据通常得以一个固定的形式来分享,从而让大家更方便追溯会数据的源头。
那么一般可以被当作这个数据的角色会是谁呢?
我想了很久。
我实在想不出古代皇室有任何东西是以这种形式存在的。
但是,我想出了合理使用这类数据的一个人。
在历史的一切灰飞烟灭以后,君主妃子大臣都百年之后,这一切的故事传说都变成了开源数据。现代的编剧啊,导演啊,都开始了一些深刻的“数据挖掘与数据分析”。反正,乾隆也不会去敲于正大哥的门问他凭什么觉得会自己不会杀掉那个伶牙俐齿口无遮拦颠倒黑白叫魏璎珞的奇怪宫女,并且让她活到成为一代宠妃的那一天?
## Unverified Outdated Data
未经证实年久失修的数据 ##
这个数据应该是本篇文章中,最好理解的数据了。所谓“未经证实年久失修的数据”是什么呢?他们是一群未经证实年久失修的数据。是不是很!好!理!解!这些数据被收集过后,没有人知道它到底是否可用,也不知道到底是不是对的人,然后过了很久很久,也失去了实效性。这样的数据在业内是不受待见的。通过它们分析出来的结果和商业决策通常不会被采纳,也不应该被认可。
那么一般可以被当作这个数据的角色会是谁呢?
我想不到一类人。
但我想到了一个人。
大明湖畔夏雨荷的女儿。
无法判断出身,数年后突然出现,你说,连张铁林都错将本应是林心如的这个头衔给了欺骗他的赵薇,这个数据可信么?不可信。
## Translytic Data 交易分析数据 ##
这个词你可能没有见过,有道词典也查不出来,因为它是两个词的结合: Transact 和 Analytic。什么意思呢,它是一个集交易/事务处理与分析为一体的数据。在以前,所有的分析都是基于交易/事务处理数据的;但是现在,随着内存计算(in-memory computing)的普及,这种在交易/事务处理过程中直接分析的数据也出现了。高效,高质,高能,一体化的一种技术。。这种数据确实是很厉害的一个存在。它绝对地强调了实时性,为战略策划的分析提供了更有效的支持。
那么一般可以被当作这个数据的角色会是谁呢?
同样的,我想不到一类人
因为我觉得历史上能做到如此的,
大概就是
武则天了吧。
她在自己的前半生,做一个数据;
在自己的后半生,做一个数据科学家。
她本人就是一个可以做内核计算的数据。
其实数据除了我们以上提到的这几种以外,
还有很多,比如我们常见的## Structured Data, Unstructured Data, Semi-Structured Data 结构化数据、非结构化数据、半结构化数据 ##,这些数据,其实是很笼统的定义,像是我们提到的别的分类的一个母级分类。除此之外还有和今天谈到的这些数据平级的,比如 ## Time-stamped Data 时戳数据 ##,根据时间节点记录;## Machine Data 机器数据 ##,它是“机器”自动吐露的数据,很多时候我们外接 API 所得到的数据都是机器数据;又或是High Dimensional Data 高维度数据,这个是很新的一个概念,通过一些高维度的标签,给数据来源的产品高精准画像,让生产者更知道问题所在。
等等等等。。。数据的世界奇幻无穷,等待我们去探索,只是,我们在这篇文章就不过多的去赘述啦,衷心祝愿大家阅读愉快。双手奉上参考资料,供大家参考!